piedweb / crawler
用于检查一些SEO基础功能的网页爬虫。
0.1.793
2024-08-29 16:14 UTC
Requires
- php: >=8.2
- league/csv: ^9.8
- piedweb/curl: *
- piedweb/extractor: *
- piedweb/text-analyzer: *
- symfony/console: ^6.4|^7
- voku/stringy: ^6.5
- dev-main
- 0.1.793
- 0.1.792
- 0.1.791
- 0.1.790
- 0.1.789
- 0.1.788
- 0.1.787
- 0.1.786
- 0.1.785
- 0.1.784
- 0.1.783
- 0.1.782
- 0.1.781
- 0.1.78
- 0.1.77
- 0.1.76
- 0.1.75
- 0.1.74
- 0.1.73
- 0.1.72
- 0.1.71
- 0.1.70
- 0.1.69
- 0.1.68
- 0.1.67
- 0.1.66
- 0.1.65
- 0.1.64
- 0.1.63
- 0.1.62
- 0.1.61
- 0.1.60
- 0.1.59
- 0.1.58
- 0.1.57
- 0.1.56
- 0.1.55
- 0.1.54
- 0.1.53
- 0.1.52
- 0.1.51
- 0.1.50
- 0.1.49
- 0.1.48
- 0.1.47
- 0.1.46
- 0.1.45
- 0.1.44
- 0.1.43
- 0.1.42
- 0.1.41
- 0.1.40
- 0.1.35
- 0.1.34
- 0.1.33
- 0.1.32
- 0.1.30
- 0.1.24
- 0.1.23
- 0.1.22
- 0.1.21
- 0.1.20
- 0.0.13
This package is auto-updated.
Last update: 2024-08-29 16:14:54 UTC
README
CLI Seo Pocket Crawler
用于检查一些SEO基础功能的网页爬虫。
使用收集到的数据在您喜欢的电子表格软件中,或者通过您喜欢的语言检索它们。
有法语文档可供使用:https://piedweb.com/seo/crawler
安装
通过 Packagist
$ composer create-project piedweb/crawler
使用方法
Crawler CLI
$ bin/console crawler:go $start
参数
start Define where the crawl start. Eg: https://piedweb.com
You can specify an id from a previous crawl. Other options will not be listen.
You can use `last` to continue the last crawl (just stopped)
选项
-l, --limit=LIMIT Define where a depth limit [default: 5]
-i, --ignore=IGNORE Virtual Robots.txt to respect (could be a string or an URL).
-u, --user-agent=USER-AGENT Define the user-agent used during the crawl. [default: "SEO Pocket Crawler - PiedWeb.com/seo/crawler"]
-w, --wait=WAIT In Microseconds, the time to wait between 2 requests. Default 0,1s. [default: 100000]
-c, --cache-method=CACHE-METHOD In Microseconds, the time to wait between two request. Default : 100000 (0,1s). [default: 2]
-r, --restart=RESTART Permit to restart a previous crawl. Values 1 = fresh restart, 2 = restart from cache
-h, --help Display this help message
-q, --quiet Do not output any message
-V, --version Display this application version
--ansi Force ANSI output
--no-ansi Disable ANSI output
-n, --no-interaction Do not ask any interactive question
-v|vv|vvv, --verbose Increase the verbosity of messages: 1 for normal output, 2 for more verbose output and 3 for debug
从之前爬取中提取1秒内所有外部链接
$ bin/console crawler:external $id [--host]
--id
id from a previous crawl
You can use `last` too show external links from the last crawl.
--host -ho
flag permitting to get only host
计算页面排名
将更新之前生成的 data.csv
。然后您可以使用PoC pagerank.html
(在服务器 npx http-server -c-1 --port 3000
)来探索您的网站。
$ bin/console crawler:pagerank $id
--id
id from a previous crawl
You can use `last` too calcul page rank from the last crawl.
测试
$ composer test
待办事项
- 更好的链接收集和记录(记录上下文(列表、导航、句子...))
- 转换PoC(页面排名可视化器)
- 复杂的页面排名计算器(包含301、规范、nofollow等)
贡献
请参阅 贡献指南
致谢
许可证
MIT许可证(MIT)。请参阅 许可证文件 了解更多信息。