j0k3r/graby-site-config

抓取网站配置文件

1.0.191 2024-09-01 02:26 UTC

This package is auto-updated.

Last update: 2024-09-01 02:27:36 UTC


README

全文RSS,我们的文章提取工具,利用特定的网站提取规则来提高结果。每次处理URL时,它会检查是否有正在处理的网站的提取规则。如果没有找到规则,它将尝试自动检测内容块。

此存储库包含我们在Full-Text RSS中依赖的特定网站提取规则。

贡献更改

我们对这些文件运行自动化测试以检测问题。如果您想帮助保持这些文件的更新,请查看测试结果,并查看您想为哪些文件贡献修复。

我们选择GitHub来管理这一系列文件,因为它们提供了一项我们希望将更改贡献变得更容易的功能:通过Web界面进行文件编辑

现在,您可以更改我们的任何网站配置文件,并请求将您的更改合并到我们维护的主要集合中。这就是GitHub所说的Fork和Pull模型。

Fork & Pull模型允许任何人通过Fork现有的存储库并将更改推送到他们的个人Fork,而不需要获得对源存储库的访问权限。然后,项目维护者必须将更改拉入源存储库。这种模型减少了新贡献者的摩擦,并且由于它允许人们在不进行事先协调的情况下独立工作,因此开源项目很受欢迎。

当我们收到一个pull请求时,我们会审查这些更改,如果一切正常,我们会更新我们的副本。

如果网站不在我们的集合中,您可以以相同的方式为其创建一个文件。请参阅在GitHub上创建文件

如何编写网站配置文件

最快、最简单的方法是使用我们的点击式界面。这是一个简单的工具,仅用于创建提取正确内容块的规则。

对于进一步细化,例如选择标题、去除元素、处理多页文章等,请参阅我们的帮助页面

文件命名

对于

使用.example.com.txt

  • sport.example.com
  • news.example.com
  • environment.example.com
  • 等等。

使用sport.example.com.txt来仅针对该子域

  • sport.example.com

注意:.example.com.txt不会匹配www.example.comexample.com

Instapaper

当我们引入网站模式时,我们选择了采用Instapaper使用的相同格式。这使得我们能够利用Instapaper用户贡献的现有提取规则。

Instapaper的创建者Marco慷慨地开放了贡献数据库,供每个人使用。

考虑到您的努力可能对各种其他工具和服务都有用,我将所有这些特定站点的配置列表免费提供给公众,没有任何附加条件。

我们集成的提取规则大多借鉴自Instapaper。您可以在以下网址查看Instapaper维护的列表:instapaper.com/bodytext/(由于Instapaper已被出售,该链接现已不可用)。

测试站点配置文件

目前,您需要拥有一份Full-Text RSS的副本来测试站点配置文件的变化。在未来,我们将尝试使这一过程更加简便。