megamindame / school_scraper

此软件包从Necta网站抓取了坦桑尼亚的所有学校。

v0.01 2023-07-06 23:46 UTC

This package is auto-updated.

Last update: 2024-09-08 16:24:40 UTC


README

抓取坦桑尼亚学校数据的软件包

用法

通过运行 composer require megamindame/school_scraper 从composer添加此软件包

如果您想使用此软件包获取学校数据,而不是在代码中使用它,您可以在App.php文件中取消注释您想要的代码部分,

使用软件包

可以从3个教育级别访问3种类型的数据。教育级别1)小学 2)中学 3)高级中学

可以访问的数据

  1. schools - 格式化学校数据数组
  2. nodes - 所有HTML链接标签的XPath节点列表。您可以遍历列表以抓取学校的成果页面。查看XPath文档了解如何使用XPath节点。
  3. data - 未格式化的学校数据数组

访问数据

您可以初始化任何fetcher并传递您想要抓取的年份。以下图像嵌入显示返回的数据格式。

1) 小学

$fetcher = new PrimaryFetcher(2022);

//Get Primary schools
return $fetcher->getSchools();

image

//Get Data
return $fetcher->getPrimaryData();

image

//Get Nodes
return $fetcher->getNodes();

2) 中学和高级中学

$fetcher = new SecondaryFetcher(2022);
//or
$fetcher = new AdvancedSecondaryFetcher(2022);

//Get Primary schools
return $fetcher->getSchools();

image

//Get Data
return $fetcher->getData();

image

//Get Nodes
return $fetcher->getNodes();

想要从节点中抓取结果的人可以使用Fetcher->getRootUrl()方法获取根URL。您可以查看代码了解如何使用节点抓取相应的网页,在这种情况下,学校成绩页面。

如上所述,如果您想将软件包作为独立使用,则可以下载代码,运行 composer install 然后在'App.php'文件中查看有关抓取数据的说明。尝试取消注释文件内的部分,然后运行 php index.php。您可以通过运行 php index.php > filename 将输出数据保存到文件中。