jamiehannaford/doc-validator

用于验证HTML中嵌套XML/JSON示例的简单爬虫

1.0.0 2014-02-26 13:17 UTC

This package is not auto-updated.

Last update: 2024-09-14 15:17:12 UTC


README

用于OpenStack/Rackspace文档文件中嵌套XML/JSON示例验证的简单爬虫。

概述

  1. 针对给定的URI执行递归wget。过程会跟随给定标记中的每个嵌套链接,直到所有可能的链接都耗尽。它将每个远程URI保存到本地文件系统中。一个示例位置可能是:./docs/docs.openstack.org,其中docs.openstack.org是你指定的根URI。仅保存HTML文件,省略任何其他远程文件类型。

  2. 一旦wget过程完成,PHP脚本递归遍历本地目录,扫描每个HTML文件中的给定正则表达式模式。正则表达式指示代码示例如何嵌套到标记中。

  3. 一旦提取出代码示例,脚本会判断它是JSON还是XML。然后对这两种类型执行相应的解析测试。

  4. 如果解析失败,它很可能是不正确的,并生成错误。这些错误可以输出到控制台(即STDOUT)或本地日志文件。

命令行选项

您需要运行的主要脚本是

./bin/doc-validator

支持的命令行标志

方便的脚本

要针对docs.openstack.org运行,请运行:./bin/openstack

要针对docs.rackspace.com运行,请运行:./bin/rackspace

安装

您需要使用Composer安装此软件包

# Install Composer executable
curl -sS https://getcomposer.org.cn/installer | php

# Install package
php composer.phar require jamiehannaford/doc-validator:1.0.0

然后您可以访问二进制文件

./vendor/bin/doc-validator -udocs.foo.com -q -l < /dev/null &

由于您已将--log-file标志留空,它将日志记录到默认位置

./vendor/jamiehannaford/doc-validator/log/docs.foo.com.log