schliesser / sitecrawler
TYPO3 网站地图爬虫
v3.0.0
2024-05-14 22:10 UTC
Requires
- php: ^8.1
- ext-simplexml: *
- ext-zlib: *
- typo3/cms-core: ^12.4 || ^v13.0
Requires (Dev)
- donatj/mock-webserver: ^2.7
- friendsofphp/php-cs-fixer: ^3.0
- php-parallel-lint/php-parallel-lint: ^1.2
- saschaegerer/phpstan-typo3: dev-master
- typo3/cms-composer-installers: ^5.0
- typo3/testing-framework: ^8.0
README
此扩展提供了一个 Symfony 命令来爬取任何网站地图,包括所有子网站地图。它收集所有可用的 URL 并逐个调用每个 URL。这样,您可以预热 TYPO3 页面缓存。任何标准网站地图都可以被爬取:TYPO3、Shopware、...
您可以使用 json 格式提供自定义请求头。对于基本身份验证,您需要在头部将用户:密码 base64 编码。
从版本 1.1.0 开始,sitecrawler 可以读取 robots.txt
文件以获取其中定义的所有网站地图。
版本 3.0.0 现在支持压缩的子网站地图和 TYPO3 v13。已停止支持 TYPO3 v11 及更早版本。
示例
基于 Composer
bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' # with custom request headers bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' '{"Authorization": "Basic dXNlcjpwYXNzd29yZA==", "Cache-Control": "no-cache"}' # Only list all gathered urls bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' --list=txt # Only list all gathered urls as json bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml' --list=json
非 Composer
typo3/sysext/core/bin/typo3 sitecrawler:crawl 'https://www.example.com/sitemap.xml'
开发
- 克隆项目并进入扩展文件夹
cd
- 安装测试依赖项:
composer install
- 使用以下命令运行测试:
composer run test