dachcom-digital / dynamic-search-data-provider-crawler
Requires
- dachcom-digital/dynamic-search: ^3.0
- pimcore/pimcore: ^11.0
- vdb/php-spider: ^0.7
Requires (Dev)
- codeception/codeception: ^5.0
- codeception/module-symfony: ^3.1
- phpstan/phpstan: ^1.0
- phpstan/phpstan-symfony: ^1.0
- symplify/easy-coding-standard: ^9.0
README
是Pimcore动态搜索的蜘蛛爬虫扩展Pimcore Dynamic Search。
发布计划
安装
"require" : { "dachcom-digital/dynamic-search" : "~3.0.0", "dachcom-digital/dynamic-search-data-provider-crawler" : "~3.0.0" }
动态搜索组件
您需要先安装/启用动态搜索组件。更多信息请参见此处。之后,按照以下步骤进行
将组件添加到 bundles.php
<?php return [ \DsWebCrawlerBundle\DsWebCrawlerBundle::class => ['all' => true], ];
基本设置
dynamic_search: context: default: data_provider: service: 'web_crawler' options: always: own_host_only: true full_dispatch: seed: 'http://your-domain.test' valid_links: - '@^http://your-domain.test.*@i' user_invalid_links: - '@^http://your-domain.test\/members.*@i' single_dispatch: host: 'http://your-domain.test.test' normalizer: service: 'web_crawler_localized_resource_normalizer'
提供者选项
总是
full_dispatch
single_dispatch
资源归一化器
默认资源归一化器
标识符: web_crawler_default_resource_normalizer
简单文档归一化选项: 无
本地化资源归一化器
标识符: web_crawler_localized_resource_normalizer
构建本地化文档
选项
转换器
构建器
HttpResponseHtmlDataScaffolder
标识符: http_response_html_scaffolder
简单对象构建器。
支持类型: VDB\Spider\Resource
,内容类型为 text/html
。
HttpResponsePdfDataScaffolder
标识符: http_response_pdf_scaffolder
简单对象构建器。
支持类型: VDB\Spider\Resource
,内容类型为 application/pdf
。
PimcoreElementScaffolder
标识符: pimcore_element_scaffolder
简单对象构建器。
支持类型: Asset
、Document
、DataObject\Concrete
。
字段转换器
UriExtractor
标识符: resource_uri_extractor
支持构建器: http_response_html_scaffolder
、http_response_pdf_scaffolder
返回类型: string|null
选项: 无
语言提取器
标识符: resource_language_extractor
支持构建器: http_response_html_scaffolder
、http_response_pdf_scaffolder
返回类型: string|null
选项: 无
元数据提取器
标识符: resource_meta_extractor
支持构建器: http_response_html_scaffolder
返回类型: string|null
选项
HtmlTagExtractor
标识符: resource_html_tag_content_extractor
支持构建器: http_response_html_scaffolder
返回类型: string|null
选项: 无
文本提取器
标识符: resource_text_extractor
支持构建器: http_response_html_scaffolder
、http_response_pdf_scaffolder
返回类型: string|null
标题提取器
标识符: resource_title_extractor
支持构建器: http_response_html_scaffolder
、http_response_pdf_scaffolder
返回类型: string|null
选项: 无
版权和许可证
版权: DACHCOM.DIGITAL
有关许可详情,请访问LICENSE.md
升级信息
在更新之前,请查看我们的升级说明!