README

ScraperMoreFaster 是一个 PHP 类，旨在比 SimpleHTMLDOM（由 SourceForge 提供）更快速地抓取网页内容。它是在我需要一个更快的爬虫解决方案时出现的。SimpleHTMLDOM 是一个出色的解析器，功能非常强大。但遗憾的是，对于爬虫用途来说太慢了，因为在爬虫中，每一毫秒都很重要。

设置

lib 文件夹中的 ScraperMoreFaster.php 文件是使用此类的唯一必需文件。

用法

定义要解析的 HTML

$scraper_more_faster = new ScraperMoreFaster;

定义来自 URL 的 HTML 文件

$scraper_more_faster->file_get_html($url);

这将通过使用 file_get_contents php 命令来从给定的 URL 中提取 HTML 来定义 HTML。

定义来自字符串的 HTML 文件

$scraper_more_faster->str_get_html($html_str);

这将简单地从传递给 $html_str 变量的字符串中定义 HTML。

从页面抓取纯文本

创建此类的最大目的是为了 PlainText 功能。在速度测试中，我发现 plaintext 功能比 SimpleHTMLDOM 的 plaintext 功能快几十倍。并且在所有比较测试中，每个工具的 plaintext 相似度为 99% - 100%。

运行此命令（在定义了上述 HTML 之后）

$scraper_more_faster->plaintext();

示例

请参阅 smf_tester.php 以获取示例用法。

josephbergevin / scraper-more-faster

维护者

详细信息

README

设置

用法

定义要解析的 HTML

从页面抓取纯文本

示例