arkhee / webbookscraper
这个简单的PHP项目可以用来提取有总结和每个章节单独页面组织的页面组,例如网络小说网站。
1.1.1
2024-06-15 21:12 UTC
Requires
- php: ^8
Suggests
- ext-curl: Read remote content
- ext-dom: Manage HTML Dom content
- ext-libxml: Handle xHtml files
- ext-mbstring: string Conversion library
README
这个简单的PHP项目可以用来提取有总结和每个章节单独页面组织的页面组,例如网络小说网站。
工作原理
该脚本将从提供的URL下载页面并提取其内容。然后,它将在特定的容器中搜索链接列表并将它们也下载下来。如果目标页面包含图像,脚本将列出它们并将它们存储在内存中的每个章节中。
默认行为是将内容存储在内存中以供进一步使用,但也可以选择缓存文件。这在内容表很大的情况下很有用。
如何使用
该脚本是一个简单的PHP类,可以在任何PHP项目中使用。主类是 WebBookScraper
,它需要一些参数才能运行
- 主页面的URL(字符串)
- 调试选项,这将创建一个日志文件(布尔值)
解析器的默认行为是在页面的以下部分查找内容,默认情况下
- 页面的“标题”从“文章头部”选择器读取
- 页面的“内容”从“文章div.entry-content”选择器读取。这些可以在运行时通过调用
setSelectors[...]
静态方法来修改。
如何安装
该项目在Packagist上可用,可以使用composer安装
composer require "arkhee/webbookscraper""
示例
提供了一个示例来展示它的工作原理,请查看示例文件夹。要直接使用它,必须使用Simplepubgen和WebBookScraper软件包。在服务器上创建一个新的文件夹并将示例文件复制到其根目录。使用composer安装这两个软件包并运行示例文件。
composer require "arkhee/simplepubgen" composer require "arkhee/webbookscraper"