josephbergevin / scraper-more-faster
对于此包的最新版本(dev-master)没有可用的许可证信息。
PHP Web Scraper - 专为速度设计
dev-master
2013-12-16 16:50 UTC
Requires
- php: >=5.3.0
This package is not auto-updated.
Last update: 2024-09-23 15:05:14 UTC
README
ScraperMoreFaster 是一个 PHP 类,旨在比 SimpleHTMLDOM(由 SourceForge 提供)更快速地抓取网页内容。它是在我需要一个更快的爬虫解决方案时出现的。SimpleHTMLDOM 是一个出色的解析器,功能非常强大。但遗憾的是,对于爬虫用途来说太慢了,因为在爬虫中,每一毫秒都很重要。
设置
lib 文件夹中的 ScraperMoreFaster.php 文件是使用此类的唯一必需文件。
用法
定义要解析的 HTML
$scraper_more_faster = new ScraperMoreFaster;
定义来自 URL 的 HTML 文件
$scraper_more_faster->file_get_html($url);
这将通过使用 file_get_contents php 命令来从给定的 URL 中提取 HTML 来定义 HTML。
定义来自字符串的 HTML 文件
$scraper_more_faster->str_get_html($html_str);
这将简单地从传递给 $html_str 变量的字符串中定义 HTML。
从页面抓取纯文本
创建此类的最大目的是为了 PlainText 功能。在速度测试中,我发现 plaintext 功能比 SimpleHTMLDOM 的 plaintext 功能快几十倍。并且在所有比较测试中,每个工具的 plaintext 相似度为 99% - 100%。
运行此命令(在定义了上述 HTML 之后)
$scraper_more_faster->plaintext();
示例
请参阅 smf_tester.php 以获取示例用法。