smweb / web-scrapper
10web博客的网页爬虫
dev-master
2023-04-03 07:45 UTC
Requires
- php: >=7.1.0
This package is auto-updated.
Last update: 2024-10-03 10:51:32 UTC
README
这是一个简单的命令行界面Web应用程序,用于抓取和汇总最新博客文章,并在首页显示。
请注意,该应用程序处于开发模式。
一些功能包括
- 通过composer管理依赖项
- 日期范围和文章限制选项
依赖项
- PHP Web服务器
- PHP >= 7.1
- MySQL >= 8.0
如何快速设置
-
确保您已安装composer
- 您可以使用composer(推荐)通过
composer create-project smweb/web-scrapper:dev-master myproject创建项目(将{myproject}重命名为任意名称) - 或在此处下载项目(zip格式):此处并将其解压到您的http服务器。
- 您可以使用composer(推荐)通过
-
在根目录中,运行
composer install -
在app/目录中,编辑db_config.php以输入正确的数据库凭据
-
在编辑数据库配置后,在根目录中运行命令
php app/create_tables.php以创建数据库表 -
要抓取帖子并将其保存到数据库中,请在根目录中运行命令
php app/scraper_cli.php --count "{count}" --startDate "{startDate}" --endDate "{endDate}",其中- {count}是要抓取的文章数量,整数,默认为10
- {startDate}是文章的发布最小日期
- {endDate}是文章的发布最大日期
- 日期格式:mm/dd/yyyy(例如:04/23/2021)
-
要查看带有抓取数据的首页,请在根目录中运行命令
php -S localhost:800以在根目录启动服务器。首页可通过localhost:800访问。
版本控制
项目使用GitHub进行版本控制。