ahadabasi/php-readability

从HTML中自动提取文章

dev-main 2021-06-26 18:41 UTC

This package is not auto-updated.

Last update: 2024-09-30 08:17:55 UTC


README

PHP Readability ================ 这是Arc90原始JavaScript版本的PHP移植版。(Arc90后来重新启动了该项目。)有关如何使用此程序的说明,请参阅。为了获得更灵活、更强大的文章提取解决方案,请查看[Full-Text RSS](http://fivefilters.org/content-only/) - 它利用PHP Readability,但提供了更多功能。请随意复制并修改/改进它。我很乐意看到您的成果。请分享它们,我会考虑将它们合并进来。PHP Readability采用Apache License,版本2.0(与原始JS版本相同的许可协议)。原始JavaScript版本可在以下位置找到:(readability.js)### 捐赠 如果您觉得这个项目有用,请考虑购买[Full-Text RSS](http://fivefilters.org/content-only/)或通过[Gittip](https://www.gittip.com/fivefilters/)捐赠。### 简单示例 cleanRepair(); $html = $tidy->value; } // 给Readability处理 $readability = new Readability($html, $url); // 打印调试输出? // 有助于与Arc90的原始JS版本进行比较 - // 只需点击带有FireBug控制台窗口的书签即可 $readability->debug = false; // 将链接转换为脚注? $readability->convertLinksToFootnotes = true; // 处理它 $result = $readability->init(); // 我们找到想要的内容了吗? if ($result) { echo "== 标题 =====================================\n"; echo $readability->getTitle()->textContent, "\n\n"; echo "== 正文 ======================================\n"; $content = $readability->getContent()->innerHTML; // 如果我们有Tidy,让我们清理它以供输出 if (function_exists('tidy_parse_string')) { $tidy = tidy_parse_string($content, array('indent' => true, 'show-body-only' => true), 'UTF8'); $tidy->cleanRepair(); $content = $tidy->value; } echo $content; } else { echo '看起来我们找不到内容。 :('; }# php-readability