arkhee / webbookscraper

这个简单的PHP项目可以用来提取有总结和每个章节单独页面组织的页面组，例如网络小说网站。

维护者

详细信息

github.com/Arkhee/WebBookScraper

公开问题: 0

1.1.1 2024-06-15 21:12 UTC

Requires

php: ^8

Requires (Dev)

None

Suggests

ext-curl: Read remote content
ext-dom: Manage HTML Dom content
ext-libxml: Handle xHtml files
ext-mbstring: string Conversion library

Provides

None

Conflicts

None

Replaces

None

GPL-3.0-or-later 15073b68a0b252ca74ebda4c2e261a19546eb9d4

Yannick Betemps <arkhee.woop@gmail.com>

dev-main
1.1.1
1.1
1.0.2
1.0.1
1.0.0

This package is auto-updated.

Last update: 2024-09-15 22:12:02 UTC

README

这个简单的PHP项目可以用来提取有总结和每个章节单独页面组织的页面组，例如网络小说网站。

工作原理

该脚本将从提供的URL下载页面并提取其内容。然后，它将在特定的容器中搜索链接列表并将它们也下载下来。如果目标页面包含图像，脚本将列出它们并将它们存储在内存中的每个章节中。

默认行为是将内容存储在内存中以供进一步使用，但也可以选择缓存文件。这在内容表很大的情况下很有用。

如何使用

该脚本是一个简单的PHP类，可以在任何PHP项目中使用。主类是 WebBookScraper，它需要一些参数才能运行

主页面的URL（字符串）
调试选项，这将创建一个日志文件（布尔值）

解析器的默认行为是在页面的以下部分查找内容，默认情况下

页面的“标题”从“文章头部”选择器读取
页面的“内容”从“文章div.entry-content”选择器读取。这些可以在运行时通过调用 setSelectors[...] 静态方法来修改。

如何安装

该项目在Packagist上可用，可以使用composer安装

composer require "arkhee/webbookscraper""

示例

提供了一个示例来展示它的工作原理，请查看示例文件夹。要直接使用它，必须使用Simplepubgen和WebBookScraper软件包。在服务器上创建一个新的文件夹并将示例文件复制到其根目录。使用composer安装这两个软件包并运行示例文件。

composer require "arkhee/simplepubgen"
composer require "arkhee/webbookscraper"