diggin / diggin-scraper
网络爬虫组件,受 Perl 的 Web::Scraper 启发。它提供了一个类似 DSL 的接口,用于遍历 HTML 文档并返回整齐排列的 PHP 多维数组。
v0.9.2
2015-12-24 16:17 UTC
Requires
Requires (Dev)
README
网络爬虫组件,受 Perl 的 Web::Scraper 启发。它提供了一个类似 DSL 的接口,用于遍历 HTML 文档并返回整齐排列的 PHP 多维数组。
# 0.9.0 版本的 CHANGELOG,当提取目标未找到时更改行为 #1
如果您想为 v0.8 兼容性抛出异常,请使用 throwTargetExceptionsOn 方法。
$scraper->throwTargetExceptionsOn(true);
功能
- 转换为多维数组
- 处理 CSS 选择器或 XPath 表达式
- 自动转换为 UTF-8
- 基于 Diggin_Http_Charset
- 自动将丑陋的 HTML 转换为 XHTML
- 基于 Diggin_Scraper_Adapter_Htmlscraping & tidy
- 自动将相对路径转换为绝对 URL ("a href" & "img src")
- 启用更改策略(xpath 或 regex)& 启用更改预处理转换 HTML
要求
- PHP 5.3.3 或更高版本
- Zend Framework 2
- Diggin 组件
- Diggin_Http_Charset
- Diggin_Scraper_Adapter_Htmlscraping