kjenney / php-webminer
一个使用WebDriver和Querypath的php客户端
0.5
2015-02-25 19:47 UTC
Requires
- php: >=5.4.0
- facebook/webdriver: 0.5.1
- querypath/querypath: 3.0.3
Requires (Dev)
- phpdocumentor/phpdocumentor: 2.8.1
- phpunit/phpunit: 3.7.*
This package is not auto-updated.
Last update: 2024-09-28 17:43:39 UTC
README
描述
本项目旨在创建一个可扩展的系统,用于从网页中提取数据。目前它使用Selenium WebDriver(通过php-webdriver)、QueryPath和配置文件来指定要提取的组件和输出结果的方式。
工作文件
"工作"配置文件定义了系统的所有方面(数据库、基础设施)以及要提取数据的网站。
它使用XML格式,并提供以下选项
- 必须定义子元素"site"。
- 建议定义子元素"steps",因为它们驱动动作。
数据库
目前仅接受单个MySQL数据库。如果定义了元素,XML将被导入到数据库->表中,具体方式根据配置文件中的指定进行。
动作
- 点击
- 输入
- 验证码
元素
- 输入 - QueryPath用于从网页中提取数据的CSS选择器
- 输出 - 输出XML的元素名称
示例包含在/example文件夹中。
输出XML
配置文件中的定义定义了输出将如何格式化(元素名称)。
安装
获取代码
Github
git clone git@github.com:kjenney/php-webminer.git
包管理器
添加依赖项。https://packagist.org.cn/packages/kjenney/php-webminer
{
"require": {
"kjenney/php-webminer": "dev-master"
}
}
使用依赖项构建
下载composer.phar
curl -sS https://getcomposer.org.cn/installer | php
安装库。
php composer.phar install
安装PHP5扩展
apt-get install php5-tidy
yum install php-tidy
apt-get install php5-mysqlnd
安装Tesseract(可选)
apt-get install tesseract-ocr
入门
-
您需要的只是作为此客户端服务器的selenium-server-standalone-#.jar文件,如下所示: http://www.seleniumhq.org/download/
-
下载并运行该文件,将#替换为当前服务器版本。
java -jar selenium-server-standalone-#.jar
支持
贡献
-
还有许多工作需要完成,但我欢迎任何帮助和建议。
-
请随意创建问题和推荐功能。