dachcom-digital/dynamic-search-data-provider-crawler

v3.0.1 2023-12-14 09:14 UTC

This package is auto-updated.

Last update: 2024-09-14 10:58:39 UTC


README

Software License Latest Release Tests PhpStan

是Pimcore动态搜索的蜘蛛爬虫扩展Pimcore Dynamic Search

发布计划

安装

"require" : {
    "dachcom-digital/dynamic-search" : "~3.0.0",
    "dachcom-digital/dynamic-search-data-provider-crawler" : "~3.0.0"
}

动态搜索组件

您需要先安装/启用动态搜索组件。更多信息请参见此处。之后,按照以下步骤进行

将组件添加到 bundles.php

<?php

return [
    \DsWebCrawlerBundle\DsWebCrawlerBundle::class => ['all' => true],
];

基本设置

dynamic_search:
    context:
        default:
            data_provider:
                service: 'web_crawler'
                options:
                    always:
                        own_host_only: true
                    full_dispatch:
                        seed: 'http://your-domain.test'
                        valid_links:
                            - '@^http://your-domain.test.*@i'
                        user_invalid_links:
                            - '@^http://your-domain.test\/members.*@i'
                    single_dispatch:
                        host: 'http://your-domain.test.test'
                normalizer:
                    service: 'web_crawler_localized_resource_normalizer'

提供者选项

总是

full_dispatch

single_dispatch

资源归一化器

默认资源归一化器

标识符: web_crawler_default_resource_normalizer 简单文档归一化选项: 无

本地化资源归一化器

标识符: web_crawler_localized_resource_normalizer 构建本地化文档

选项

转换器

构建器

HttpResponseHtmlDataScaffolder

标识符: http_response_html_scaffolder
简单对象构建器。
支持类型: VDB\Spider\Resource,内容类型为 text/html

HttpResponsePdfDataScaffolder

标识符: http_response_pdf_scaffolder
简单对象构建器。
支持类型: VDB\Spider\Resource,内容类型为 application/pdf

PimcoreElementScaffolder

标识符: pimcore_element_scaffolder
简单对象构建器。
支持类型: AssetDocumentDataObject\Concrete

字段转换器

UriExtractor

标识符: resource_uri_extractor
支持构建器: http_response_html_scaffolderhttp_response_pdf_scaffolder

返回类型: string|null
选项: 无

语言提取器

标识符: resource_language_extractor
支持构建器: http_response_html_scaffolderhttp_response_pdf_scaffolder

返回类型: string|null 选项: 无

元数据提取器

标识符: resource_meta_extractor
支持构建器: http_response_html_scaffolder

返回类型: string|null 选项

HtmlTagExtractor

标识符: resource_html_tag_content_extractor
支持构建器: http_response_html_scaffolder

返回类型: string|null 选项: 无

文本提取器

标识符: resource_text_extractor
支持构建器: http_response_html_scaffolderhttp_response_pdf_scaffolder

返回类型: string|null

标题提取器

标识符: resource_title_extractor
支持构建器: http_response_html_scaffolderhttp_response_pdf_scaffolder

返回类型: string|null 选项: 无

版权和许可证

版权: DACHCOM.DIGITAL
有关许可详情,请访问LICENSE.md

升级信息

在更新之前,请查看我们的升级说明