awesam86/imlinscraper

图像和链接抓取器

v1.0.1 2018-08-11 16:30 UTC

This package is not auto-updated.

Last update: 2024-09-27 15:09:56 UTC


README

这是一个可以从网页抓取图像和链接信息的库,可以以数组的形式获取。

描述

ImlinScraper是一个可以一次性抓取网页中的图像和链接信息的库。它还可以一次性抓取多个页面的信息。

用法

首先,生成用于信息获取的实例
通常情况下,在生成实例时,需要传递页面URL作为参数。通过以数组的形式传递多个URL,可以一次性抓取多个页面的信息。

第一个参数:String or Array - 页面URL(可选)
第二个参数:String - 用户代理(可选)

use Awesam86\ImlinScraper\Scraper;

$scraper = new Scraper('情報取得したいURL');

〜 获取目的页面图像信息的方法 〜
以下是在不提供参数的情况下调用方法的情况
如果没有在实例生成时传递页面URL作为参数,或者想要更改页面URL,请通过参数传递页面URL。
如果只想获取特定元素子元素的信息,可以通过在第三个参数中指定XPath语法来实现。

第一个参数:String or Array - 页面URL(可选)
第二个参数:String - 用户代理(可选)
第三个参数:String - 自定义XPath(可选)

$imgsInfoArray = $scraper->GetImagesData();
//戻り値の配列を出力
var_dump($imgsInfoArray);

返回数组的键
src => 图像URL
alt => 替代文本

〜 获取目的页面链接信息的方法 〜
第三个参数与获取图像信息的方法相同。
第四个参数是,如果只想获取外部链接,则将其设置为true。(默认值为false)

第一个参数:String or Array - 页面URL(可选)
第二个参数:String - 用户代理(可选)
第三个参数:String - 自定义XPath(可选)
第四个参数:Boolean - 仅提取外部链接(可选)

$linksInfoArray = $scraper->GetLinksData();
//戻り値の配列を出力
var_dump($linksInfoArray);

返回数组的键
href => 目标URL
text => 节点值

安装

使用composer进行安装。

在composer.json中添加以下内容。

{
"require": {
"awesam86/imlinscraper": "~1.0"
}
}

运行composer install进行安装。

$ composer install

之后,只需在需要使用的地方添加require和use即可。

<?php
require __DIR__."/vendor/autoload.php";
use Awesam86\ImlinScraper\Scraper;

// code...

许可

本软件在MIT许可证下发布,请参阅LICENSE文件。