awesam86 / imlinscraper
图像和链接抓取器
Requires
- php: >=5.3.0
Requires (Dev)
- phpunit/phpunit: 4.8.*
This package is not auto-updated.
Last update: 2024-09-27 15:09:56 UTC
README
这是一个可以从网页抓取图像和链接信息的库,可以以数组的形式获取。
描述
ImlinScraper是一个可以一次性抓取网页中的图像和链接信息的库。它还可以一次性抓取多个页面的信息。
用法
首先,生成用于信息获取的实例
通常情况下,在生成实例时,需要传递页面URL作为参数。通过以数组的形式传递多个URL,可以一次性抓取多个页面的信息。
第一个参数:String or Array - 页面URL(可选)
第二个参数:String - 用户代理(可选)
use Awesam86\ImlinScraper\Scraper; $scraper = new Scraper('情報取得したいURL');
〜 获取目的页面图像信息的方法 〜
以下是在不提供参数的情况下调用方法的情况
如果没有在实例生成时传递页面URL作为参数,或者想要更改页面URL,请通过参数传递页面URL。
如果只想获取特定元素子元素的信息,可以通过在第三个参数中指定XPath语法来实现。
第一个参数:String or Array - 页面URL(可选)
第二个参数:String - 用户代理(可选)
第三个参数:String - 自定义XPath(可选)
$imgsInfoArray = $scraper->GetImagesData(); //戻り値の配列を出力 var_dump($imgsInfoArray);
返回数组的键
src => 图像URL
alt => 替代文本
〜 获取目的页面链接信息的方法 〜
第三个参数与获取图像信息的方法相同。
第四个参数是,如果只想获取外部链接,则将其设置为true。(默认值为false)
第一个参数:String or Array - 页面URL(可选)
第二个参数:String - 用户代理(可选)
第三个参数:String - 自定义XPath(可选)
第四个参数:Boolean - 仅提取外部链接(可选)
$linksInfoArray = $scraper->GetLinksData(); //戻り値の配列を出力 var_dump($linksInfoArray);
返回数组的键
href => 目标URL
text => 节点值
安装
使用composer进行安装。
在composer.json中添加以下内容。
{ "require": { "awesam86/imlinscraper": "~1.0" } }
运行composer install进行安装。
$ composer install
之后,只需在需要使用的地方添加require和use即可。
<?php require __DIR__."/vendor/autoload.php"; use Awesam86\ImlinScraper\Scraper; // code...
许可
本软件在MIT许可证下发布,请参阅LICENSE文件。