pforret / pf_pageparser
PHP 简单正则表达式页面解析器
2.0.3
2023-04-17 11:58 UTC
Requires
- php: ^8.0
- ext-curl: *
- ext-json: *
- guzzlehttp/guzzle: ^6.5|^7.0
- psr/log: ^1.1|^2.0|^3.0
Requires (Dev)
- laravel/pint: ^1.6
- phpunit/phpunit: ^9.5
README
这是我编写的一个 HTML 解析器,因为我经常爬取大量网站以寻找结构化、重复的数据。此解析器允许我轻松清理 HTML,将其分割成块并找到每个块中的正确数据。它不使用 DOM 解析器,因此它也可以在部分或无效的 HTML 上工作。
安装
您可以通过 composer 安装此包
composer require pforret/pf_pageparser
用法
$pp=New PfPageparser(["cacheTtl" => 300]); $pp->load_from_url("http://www.example.com/products") ->trim("<table","</table>") ->split_chunks('</tr>') ->filter_chunks('product_id') ->parse_from_chunks('|Price: [\d\.]*|',true); $prices=$pp->results();
测试
composer test
变更日志
请参阅 CHANGELOG 了解最近有哪些更改。
贡献
请参阅 CONTRIBUTING 了解详细信息。
安全
如果您发现任何与安全相关的问题,请发送电子邮件至 peter@forret.com 而不是使用问题跟踪器。
致谢
许可
MIT 许可证 (MIT)。请参阅 许可文件 了解更多信息。
PHP 包模板
此包是使用 PHP 包模板 生成的。