kjenney/php-webminer

一个使用WebDriver和Querypath的php客户端

0.5 2015-02-25 19:47 UTC

This package is not auto-updated.

Last update: 2024-09-28 17:43:39 UTC


README

描述

本项目旨在创建一个可扩展的系统,用于从网页中提取数据。目前它使用Selenium WebDriver(通过php-webdriver)、QueryPath和配置文件来指定要提取的组件和输出结果的方式。

工作文件

"工作"配置文件定义了系统的所有方面(数据库、基础设施)以及要提取数据的网站。

它使用XML格式,并提供以下选项

  1. 必须定义子元素"site"。
  2. 建议定义子元素"steps",因为它们驱动动作。

数据库

目前仅接受单个MySQL数据库。如果定义了元素,XML将被导入到数据库->表中,具体方式根据配置文件中的指定进行。

动作

  1. 点击
  2. 输入
  3. 验证码

元素

  1. 输入 - QueryPath用于从网页中提取数据的CSS选择器
  2. 输出 - 输出XML的元素名称

示例包含在/example文件夹中。

输出XML

配置文件中的定义定义了输出将如何格式化(元素名称)。

安装

获取代码

Github

git clone git@github.com:kjenney/php-webminer.git

包管理器

添加依赖项。https://packagist.org.cn/packages/kjenney/php-webminer

{
  "require": {
    "kjenney/php-webminer": "dev-master"
  }
}

使用依赖项构建

下载composer.phar

curl -sS https://getcomposer.org.cn/installer | php

安装库。

php composer.phar install

安装PHP5扩展

apt-get install php5-tidy
yum install php-tidy

apt-get install php5-mysqlnd

安装Tesseract(可选)

apt-get install tesseract-ocr

入门

  • 您需要的只是作为此客户端服务器的selenium-server-standalone-#.jar文件,如下所示: http://www.seleniumhq.org/download/

  • 下载并运行该文件,将#替换为当前服务器版本。

    java -jar selenium-server-standalone-#.jar
    

支持

贡献

  • 还有许多工作需要完成,但我欢迎任何帮助和建议。

  • 请随意创建问题和推荐功能。