schliesser/sitecrawler

TYPO3 网站地图爬虫

安装次数: 22,093

依赖项: 0

建议者: 0

安全性: 0

星标: 10

关注者: 1

分支: 1

开放性问题: 0

类型:typo3-cms-extension

v3.0.0 2024-05-14 22:10 UTC

This package is auto-updated.

Last update: 2024-09-14 22:58:46 UTC


README

此扩展提供了一个 Symfony 命令来爬取任何网站地图,包括所有子网站地图。它收集所有可用的 URL 并逐个调用每个 URL。这样,您可以预热 TYPO3 页面缓存。任何标准网站地图都可以被爬取:TYPO3、Shopware、...

您可以使用 json 格式提供自定义请求头。对于基本身份验证,您需要在头部将用户:密码 base64 编码。

从版本 1.1.0 开始,sitecrawler 可以读取 robots.txt 文件以获取其中定义的所有网站地图。

版本 3.0.0 现在支持压缩的子网站地图和 TYPO3 v13。已停止支持 TYPO3 v11 及更早版本。

示例

基于 Composer

bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml'

# with custom request headers
bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' '{"Authorization": "Basic dXNlcjpwYXNzd29yZA==", "Cache-Control": "no-cache"}'

# Only list all gathered urls
bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' --list=txt

# Only list all gathered urls as json
bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' --list=json

非 Composer

typo3/sysext/core/bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml'

开发

  • 克隆项目并进入扩展文件夹 cd
  • 安装测试依赖项:composer install
  • 使用以下命令运行测试:composer run test