j0k3r / graby-site-config
抓取网站配置文件
Requires
- symfony/finder: ~2.6|~3.0|~4.0|~5.0|~6.0|~7.0
Requires (Dev)
- liip/rmt: 1.2.*
- symfony/phpunit-bridge: ^6.0|^7.0
- dev-master
- 1.0.191
- 1.0.190
- 1.0.189
- 1.0.188
- 1.0.187
- 1.0.186
- 1.0.185
- 1.0.184
- 1.0.183
- 1.0.182
- 1.0.181
- 1.0.180
- 1.0.179
- 1.0.178
- 1.0.177
- 1.0.176
- 1.0.175
- 1.0.174
- 1.0.173
- 1.0.172
- 1.0.171
- 1.0.170
- 1.0.169
- 1.0.168
- 1.0.167
- 1.0.166
- 1.0.165
- 1.0.164
- 1.0.163
- 1.0.162
- 1.0.161
- 1.0.160
- 1.0.159
- 1.0.158
- 1.0.157
- 1.0.156
- 1.0.155
- 1.0.154
- 1.0.153
- 1.0.152
- 1.0.151
- 1.0.150
- 1.0.149
- 1.0.148
- 1.0.147
- 1.0.146
- 1.0.145
- 1.0.144
- 1.0.143
- 1.0.142
- 1.0.141
- 1.0.140
- 1.0.139
- 1.0.138
- 1.0.137
- 1.0.136
- 1.0.135
- 1.0.134
- 1.0.133
- 1.0.132
- 1.0.131
- 1.0.130
- 1.0.129
- 1.0.128
- 1.0.127
- 1.0.126
- 1.0.125
- 1.0.124
- 1.0.123
- 1.0.122
- 1.0.121
- 1.0.120
- 1.0.119
- 1.0.118
- 1.0.117
- 1.0.116
- 1.0.115
- 1.0.114
- 1.0.113
- 1.0.112
- 1.0.111
- 1.0.110
- 1.0.109
- 1.0.108
- 1.0.107
- 1.0.106
- 1.0.105
- 1.0.104
- 1.0.103
- 1.0.102
- 1.0.101
- 1.0.100
- 1.0.99
- 1.0.98
- 1.0.97
- 1.0.96
- 1.0.95
- 1.0.94
- 1.0.93
- 1.0.92
- 1.0.91
- 1.0.90
- 1.0.89
- 1.0.88
- 1.0.87
- 1.0.86
- 1.0.85
- 1.0.84
- 1.0.83
- 1.0.82
- 1.0.81
- 1.0.80
- 1.0.79
- 1.0.78
- 1.0.77
- 1.0.76
- 1.0.75
- 1.0.74
- 1.0.73
- 1.0.72
- 1.0.71
- 1.0.70
- 1.0.69
- 1.0.68
- 1.0.67
- 1.0.66
- 1.0.65
- 1.0.64
- 1.0.63
- 1.0.62
- 1.0.61
- 1.0.60
- 1.0.59
- 1.0.58
- 1.0.57
- 1.0.56
- 1.0.55
- 1.0.54
- 1.0.53
- 1.0.52
- 1.0.51
- 1.0.50
- 1.0.49
- 1.0.48
- 1.0.47
- 1.0.46
- 1.0.45
- 1.0.44
- 1.0.43
- 1.0.42
- 1.0.41
- 1.0.40
- 1.0.39
- 1.0.38
- 1.0.37
- 1.0.36
- 1.0.35
- 1.0.34
- 1.0.33
- 1.0.32
- 1.0.31
- 1.0.30
- 1.0.29
- 1.0.28
- 1.0.27
- 1.0.26
- 1.0.25
- 1.0.24
- 1.0.23
- 1.0.22
- 1.0.21
- 1.0.20
- 1.0.19
- 1.0.18
- 1.0.17
- 1.0.16
- 1.0.15
- 1.0.14
- 1.0.13
- 1.0.12
- 1.0.11
- 1.0.10
- 1.0.9
- 1.0.8
- 1.0.7
- 1.0.6
- 1.0.5
- 1.0.4
- 1.0.3
- 1.0.2
- 1.0.1
- 1.0.0
- dev-patch-1
- dev-telegraph
This package is auto-updated.
Last update: 2024-09-01 02:27:36 UTC
README
全文RSS,我们的文章提取工具,利用特定的网站提取规则来提高结果。每次处理URL时,它会检查是否有正在处理的网站的提取规则。如果没有找到规则,它将尝试自动检测内容块。
此存储库包含我们在Full-Text RSS中依赖的特定网站提取规则。
贡献更改
我们对这些文件运行自动化测试以检测问题。如果您想帮助保持这些文件的更新,请查看测试结果,并查看您想为哪些文件贡献修复。
我们选择GitHub来管理这一系列文件,因为它们提供了一项我们希望将更改贡献变得更容易的功能:通过Web界面进行文件编辑。
现在,您可以更改我们的任何网站配置文件,并请求将您的更改合并到我们维护的主要集合中。这就是GitHub所说的Fork和Pull模型。
Fork & Pull模型允许任何人通过Fork现有的存储库并将更改推送到他们的个人Fork,而不需要获得对源存储库的访问权限。然后,项目维护者必须将更改拉入源存储库。这种模型减少了新贡献者的摩擦,并且由于它允许人们在不进行事先协调的情况下独立工作,因此开源项目很受欢迎。
当我们收到一个pull请求时,我们会审查这些更改,如果一切正常,我们会更新我们的副本。
如果网站不在我们的集合中,您可以以相同的方式为其创建一个文件。请参阅在GitHub上创建文件。
如何编写网站配置文件
最快、最简单的方法是使用我们的点击式界面。这是一个简单的工具,仅用于创建提取正确内容块的规则。
对于进一步细化,例如选择标题、去除元素、处理多页文章等,请参阅我们的帮助页面。
文件命名
对于
- www.example.com
- example.com
使用.example.com.txt
为
- sport.example.com
- news.example.com
- environment.example.com
- 等等。
使用sport.example.com.txt
来仅针对该子域
- sport.example.com
注意:.example.com.txt
将不会匹配www.example.com
或example.com
Instapaper
当我们引入网站模式时,我们选择了采用Instapaper使用的相同格式。这使得我们能够利用Instapaper用户贡献的现有提取规则。
Instapaper的创建者Marco慷慨地开放了贡献数据库,供每个人使用。
考虑到您的努力可能对各种其他工具和服务都有用,我将所有这些特定站点的配置列表免费提供给公众,没有任何附加条件。
我们集成的提取规则大多借鉴自Instapaper。您可以在以下网址查看Instapaper维护的列表:instapaper.com/bodytext/(由于Instapaper已被出售,该链接现已不可用)。
测试站点配置文件
目前,您需要拥有一份Full-Text RSS的副本来测试站点配置文件的变化。在未来,我们将尝试使这一过程更加简便。