diggin/diggin-scraper

网络爬虫组件,受 Perl 的 Web::Scraper 启发。它提供了一个类似 DSL 的接口,用于遍历 HTML 文档并返回整齐排列的 PHP 多维数组。

v0.9.2 2015-12-24 16:17 UTC

This package is auto-updated.

Last update: 2024-09-06 16:19:47 UTC


README

网络爬虫组件,受 Perl 的 Web::Scraper 启发。它提供了一个类似 DSL 的接口,用于遍历 HTML 文档并返回整齐排列的 PHP 多维数组。

# 0.9.0 版本的 CHANGELOG,当提取目标未找到时更改行为 #1

如果您想为 v0.8 兼容性抛出异常,请使用 throwTargetExceptionsOn 方法。

$scraper->throwTargetExceptionsOn(true);

功能

  • 转换为多维数组
  • 处理 CSS 选择器或 XPath 表达式
  • 自动转换为 UTF-8
  • 基于 Diggin_Http_Charset
  • 自动将丑陋的 HTML 转换为 XHTML
  • 基于 Diggin_Scraper_Adapter_Htmlscraping & tidy
  • 自动将相对路径转换为绝对 URL ("a href" & "img src")
  • 启用更改策略(xpath 或 regex)& 启用更改预处理转换 HTML

要求

  • PHP 5.3.3 或更高版本
  • Zend Framework 2
  • Diggin 组件
  • Diggin_Http_Charset
  • Diggin_Scraper_Adapter_Htmlscraping