migliori/sitemap-crawler

Sitemap 爬虫/生成器。对于给定的 URL,它将返回包含 URL 和图像的 Sitemap XML 文件。

0.0.3 2019-04-10 06:14 UTC

This package is auto-updated.

Last update: 2024-09-10 18:39:04 UTC


README

Sitemap 爬虫/生成器。对于给定的 URL,它将返回包含 URL 和图像的 Sitemap XML 文件。

可以作为独立程序或与 Ajax 一起使用(构建 Sitemap,提交到搜索引擎并在按钮点击时显示结果)

原始项目: https://github.com/ivebe/sitemap-crawler

安装

composer require migliori/sitemap-crawler

功能

  • 爬取给定 URL 并生成 Sitemap
  • 爬取找到的每个 URL 并将图像添加到 Sitemap
  • 将 Sitemap 保存到您的服务器或下载它
  • 配置最大深度
  • 作为独立程序使用(或 CRON 任务)
  • 在按钮点击时通过 Ajax 调用
  • 屏幕上实时报告,包含 URL 数量和 URL 列表
  • 搜索引擎自动提交(ping)并带有屏幕报告

示例

<?php

require_once __DIR__ . '/vendor/autoload.php';

use SitemapCrawler\Crawler;
use SitemapCrawler\SitemapService;
use SitemapCrawler\LinkCollection;

$config = require __DIR__ . '/vendor/ivebe/sitemap-crawler/src/config.php';

$url = 'http://www.google.com';
/**
 * $dest:
 *      false if you want to download the generated sitemap
 *      'filename.xml' to save file on server
 */
$dest = __DIR__ . '/sitemap.xml';

/**
 * sitemap url for search engines submission
 */
$sitemap_url = 'http://www.google.com/sitemap.xml';

$crawler    = new Crawler($config['crawler']);
$collection = new LinkCollection();
$provider   = new SitemapService($crawler, $collection, $url, $config['sitemap_service']);

$links = $provider->crawl($url);

$provider->export('daily', $dest);

if ($config['submit_to_search_engines'] === true) {
    $provider->SubmitSiteMap($sitemap_url);
}

示例 2(Ajax)

参考 ajax-demo.php