josephbergevin/scraper-more-faster

对于此包的最新版本(dev-master)没有可用的许可证信息。

PHP Web Scraper - 专为速度设计

dev-master 2013-12-16 16:50 UTC

This package is not auto-updated.

Last update: 2024-09-23 15:05:14 UTC


README

ScraperMoreFaster 是一个 PHP 类,旨在比 SimpleHTMLDOM(由 SourceForge 提供)更快速地抓取网页内容。它是在我需要一个更快的爬虫解决方案时出现的。SimpleHTMLDOM 是一个出色的解析器,功能非常强大。但遗憾的是,对于爬虫用途来说太慢了,因为在爬虫中,每一毫秒都很重要。

设置

lib 文件夹中的 ScraperMoreFaster.php 文件是使用此类的唯一必需文件。

用法

定义要解析的 HTML

$scraper_more_faster = new ScraperMoreFaster;

定义来自 URL 的 HTML 文件

$scraper_more_faster->file_get_html($url);

这将通过使用 file_get_contents php 命令来从给定的 URL 中提取 HTML 来定义 HTML。

定义来自字符串的 HTML 文件

$scraper_more_faster->str_get_html($html_str);

这将简单地从传递给 $html_str 变量的字符串中定义 HTML。

从页面抓取纯文本

创建此类的最大目的是为了 PlainText 功能。在速度测试中,我发现 plaintext 功能比 SimpleHTMLDOM 的 plaintext 功能快几十倍。并且在所有比较测试中,每个工具的 plaintext 相似度为 99% - 100%。

运行此命令(在定义了上述 HTML 之后)

$scraper_more_faster->plaintext();

示例

请参阅 smf_tester.php 以获取示例用法。