pforret/pf_pageparser

PHP 简单正则表达式页面解析器

安装: 568

依赖: 1

建议: 0

安全: 0

星标: 2

关注者: 3

分支: 1

开放问题: 0

语言:HTML

2.0.3 2023-04-17 11:58 UTC

This package is auto-updated.

Last update: 2024-09-18 15:02:55 UTC


README

Latest Version on Packagist Build Status Quality Score Total Downloads

这是我编写的一个 HTML 解析器,因为我经常爬取大量网站以寻找结构化、重复的数据。此解析器允许我轻松清理 HTML,将其分割成块并找到每个块中的正确数据。它不使用 DOM 解析器,因此它也可以在部分或无效的 HTML 上工作。

安装

您可以通过 composer 安装此包

composer require pforret/pf_pageparser

用法

$pp=New PfPageparser(["cacheTtl" => 300]);

$pp->load_from_url("http://www.example.com/products")
    ->trim("<table","</table>")
    ->split_chunks('</tr>')
    ->filter_chunks('product_id')
    ->parse_from_chunks('|Price: [\d\.]*|',true);

$prices=$pp->results();

测试

composer test

变更日志

请参阅 CHANGELOG 了解最近有哪些更改。

贡献

请参阅 CONTRIBUTING 了解详细信息。

安全

如果您发现任何与安全相关的问题,请发送电子邮件至 peter@forret.com 而不是使用问题跟踪器。

致谢

许可

MIT 许可证 (MIT)。请参阅 许可文件 了解更多信息。

PHP 包模板

此包是使用 PHP 包模板 生成的。