arkhee/webbookscraper

这个简单的PHP项目可以用来提取有总结和每个章节单独页面组织的页面组,例如网络小说网站。

1.1.1 2024-06-15 21:12 UTC

This package is auto-updated.

Last update: 2024-09-15 22:12:02 UTC


README

这个简单的PHP项目可以用来提取有总结和每个章节单独页面组织的页面组,例如网络小说网站。

工作原理

该脚本将从提供的URL下载页面并提取其内容。然后,它将在特定的容器中搜索链接列表并将它们也下载下来。如果目标页面包含图像,脚本将列出它们并将它们存储在内存中的每个章节中。

默认行为是将内容存储在内存中以供进一步使用,但也可以选择缓存文件。这在内容表很大的情况下很有用。

如何使用

该脚本是一个简单的PHP类,可以在任何PHP项目中使用。主类是 WebBookScraper,它需要一些参数才能运行

  • 主页面的URL(字符串)
  • 调试选项,这将创建一个日志文件(布尔值)

解析器的默认行为是在页面的以下部分查找内容,默认情况下

  • 页面的“标题”从“文章头部”选择器读取
  • 页面的“内容”从“文章div.entry-content”选择器读取。这些可以在运行时通过调用 setSelectors[...] 静态方法来修改。

如何安装

该项目在Packagist上可用,可以使用composer安装

composer require "arkhee/webbookscraper""

示例

提供了一个示例来展示它的工作原理,请查看示例文件夹。要直接使用它,必须使用Simplepubgen和WebBookScraper软件包。在服务器上创建一个新的文件夹并将示例文件复制到其根目录。使用composer安装这两个软件包并运行示例文件。

composer require "arkhee/simplepubgen"
composer require "arkhee/webbookscraper"