smweb/web-scrapper

10web博客的网页爬虫

dev-master 2023-04-03 07:45 UTC

This package is auto-updated.

Last update: 2024-10-03 10:51:32 UTC


README

这是一个简单的命令行界面Web应用程序,用于抓取和汇总最新博客文章,并在首页显示。

请注意,该应用程序处于开发模式。

一些功能包括

  • 通过composer管理依赖项
  • 日期范围和文章限制选项

依赖项

  • PHP Web服务器
  • PHP >= 7.1
  • MySQL >= 8.0

如何快速设置

  • 确保您已安装composer

    • 您可以使用composer(推荐)通过composer create-project smweb/web-scrapper:dev-master myproject创建项目(将{myproject}重命名为任意名称)
    • 或在此处下载项目(zip格式):此处并将其解压到您的http服务器。
  • 在根目录中,运行composer install

  • 在app/目录中,编辑db_config.php以输入正确的数据库凭据

  • 在编辑数据库配置后,在根目录中运行命令php app/create_tables.php以创建数据库表

  • 要抓取帖子并将其保存到数据库中,请在根目录中运行命令php app/scraper_cli.php --count "{count}" --startDate "{startDate}" --endDate "{endDate}",其中

    • {count}是要抓取的文章数量,整数,默认为10
    • {startDate}是文章的发布最小日期
    • {endDate}是文章的发布最大日期
    • 日期格式:mm/dd/yyyy(例如:04/23/2021)
  • 要查看带有抓取数据的首页,请在根目录中运行命令php -S localhost:800以在根目录启动服务器。首页可通过localhost:800访问。

版本控制

项目使用GitHub进行版本控制。