florence/scrapa

此包已被放弃,不再维护。未建议替代包。

一个简单的PHP网页抓取包

v1.0 2016-04-18 12:12 UTC

This package is not auto-updated.

Last update: 2020-08-19 05:41:21 UTC


README

#WebScrapa

###免责声明 此包仅用于学习目的。

Build Status

Coverage Status

一个简单的PHP网页抓取包 -

大多数网站不提供将显示在您计算机上的数据保存副本的功能。在这种情况下,唯一的选择是将浏览器中显示的网站数据手动复制并粘贴到您计算机的本地文件中 - 这是一个非常繁琐的工作,可能需要数小时或有时甚至数天才能完成。网页抓取是自动化此过程的技术。

WebScrapa是一个使用PHP编写的简单网页抓取包。它使用cURL请求并下载一个网页。下载的网页被转换为XML DOM对象,并使用XPath在XML DOM对象中导航元素。

##安装

composer require "florence/scrapa: v1.0"

##用法

  • 创建Scrap类的实例

      $url = 'https://www.youtubecom/JustinBieber/about';
      $query = '//ul[@class="about-custom-links"]//a[@class="about-channel-link "]/@href';
    
      $scrap = new Scrap($url, $query);
    

了解XPath以及如何根据标签和属性(如CSS类和ID)抓取元素。https://goo.gl/Gjd3R3

  • 使用toArrayScrapDOM方法以数组格式获取查询结果

      print_r($scrap->toArrayScrapDOM());
    
  • 使用toStringScrapDOM方法以字符串格式获取查询结果

      print_r($scrap->toStringScrapDOM())
    

运行示例文件

克隆仓库

git clone https://github.com/andela-fokosun/webscrapa

运行

composer install

在终端中运行

php example.php

运行测试

vendor/bin/phpunit