giauphan / crawl-blog-data
这款强大的网页爬取工具旨在轻松地从博客和网站上收集数据,为您提供有价值的见解和信息。
v1.1
2024-03-14 07:10 UTC
Requires
- php: ^8.1
- giauphan/goutte: *
- giauphan/goutte-facade: *
- guzzlehttp/guzzle: ^7.2
- illuminate/console: *
- illuminate/database: *
README
概述
欢迎来到 Laravel 爬虫博客仓库!这款强大的网页爬取工具旨在轻松地从博客和网站上收集数据,提供有价值的见解和信息。无论您是内容创作者、市场研究人员还是电子商务创业者,这款基于 Laravel 的爬虫为您提供了理想的数据提取解决方案。
功能
- 网页爬取:从各种博客和网站上提取数据,包括博客文章、产品描述、价格和客户评论。
安装
按照以下步骤运行 Laravel 爬虫博客
- 克隆仓库
composer require giauphan/crawl-blog-data -W
Laravel 10.x
您需要在 config/app.php 文件中添加提供者和别名
<?php 'providers' => [ Giauphan\CrawlBlog\CrawlBlogDataServiceProvider::class ],
您需要在 app/Console/Kernel.php 文件中添加命令
protected function commands(): void { $this->load(__DIR__.'/Commands'); $this->load(__DIR__.'/../CrawlBlog'); require base_path('routes/console.php'); }
Laravel 11.x
您需要在 bootstrap/app.php 文件中添加命令
use App\CrawlBlog\CrawlExample; ->withCommands([ CrawlExample::class, ])
您可以使用以下命令发布和运行迁移
php artisan vendor:publish --provider="Giauphan\CrawlBlog\CrawlBlogDataServiceProvider" --tag="migrations"
php artisan migrate
您可以使用以下命令发布配置文件
php artisan vendor:publish --provider="Giauphan\CrawlBlog\CrawlBlogDataServiceProvider" --tag="command"
- 配置
- 更新 .env 文件以配置数据库设置。
- 调整 CrawlBlogData.php 文件以根据您的需求自定义爬取行为。
您可以使用以下 artisan 命令生成新的设置类。
php artisan make:crawl-blog CrawlExample
- 执行爬取器:使用以下命令通过命令行运行爬取器
php artisan crawl:CrawlExample url category_name lang limitblog
这会启动网页爬取过程,提取的数据将被保存到配置的数据库表中。
贡献
我们欢迎社区的贡献!如果您遇到错误、有功能请求或想要增强爬虫,请在 GitHub 上提交问题或拉取请求。
许可证
Laravel 爬虫博客是开源软件,遵循 MIT 许可证。您可以根据许可证条款自由使用、修改和分发。
联系
有关询问或支持,请联系我们 Giauphan012@gmail.com。
感谢您使用 Laravel 爬虫博客!祝您爬取愉快!