megamindame / school_scraper
此软件包从Necta网站抓取了坦桑尼亚的所有学校。
v0.01
2023-07-06 23:46 UTC
Requires
- php: >= 7.0
- ext-dom: *
- ext-libxml: *
- guzzlehttp/guzzle: ^7.7
This package is auto-updated.
Last update: 2024-09-08 16:24:40 UTC
README
抓取坦桑尼亚学校数据的软件包
用法
通过运行 composer require megamindame/school_scraper
从composer添加此软件包
如果您想使用此软件包获取学校数据,而不是在代码中使用它,您可以在App.php文件中取消注释您想要的代码部分,
使用软件包
可以从3个教育级别访问3种类型的数据。教育级别1)小学 2)中学 3)高级中学
可以访问的数据
- schools - 格式化学校数据数组
- nodes - 所有HTML链接标签的XPath节点列表。您可以遍历列表以抓取学校的成果页面。查看XPath文档了解如何使用XPath节点。
- data - 未格式化的学校数据数组
访问数据
您可以初始化任何fetcher并传递您想要抓取的年份。以下图像嵌入显示返回的数据格式。
1) 小学
$fetcher = new PrimaryFetcher(2022);
//Get Primary schools
return $fetcher->getSchools();
//Get Data
return $fetcher->getPrimaryData();
//Get Nodes
return $fetcher->getNodes();
2) 中学和高级中学
$fetcher = new SecondaryFetcher(2022);
//or
$fetcher = new AdvancedSecondaryFetcher(2022);
//Get Primary schools
return $fetcher->getSchools();
//Get Data
return $fetcher->getData();
//Get Nodes
return $fetcher->getNodes();
想要从节点中抓取结果的人可以使用Fetcher->getRootUrl()方法获取根URL。您可以查看代码了解如何使用节点抓取相应的网页,在这种情况下,学校成绩页面。
如上所述,如果您想将软件包作为独立使用,则可以下载代码,运行 composer install
然后在'App.php'文件中查看有关抓取数据的说明。尝试取消注释文件内的部分,然后运行 php index.php
。您可以通过运行 php index.php > filename
将输出数据保存到文件中。