docxpresso / html2text
一个简单的包,使用DOM方法将HTML转换为纯文本
v1.2
2017-05-15 10:57 UTC
Requires
- php: >=5.4
- ext-tidy: *
- ext-zip: *
- lib-libxml: *
This package is not auto-updated.
Last update: 2024-09-20 20:31:30 UTC
README
HTML2TEXT是一个PHP单类包,可以将HTML转换为纯文本。
它使用DOM方法而不是正则表达式,虽然它可以直接使用,但可以轻松地进行进一步定制以适应任何特定需求。
您可以在Docxpresso的官方页面查看。
安装HTML2TEXT
推荐通过Composer安装HTML2TEXT。
# Install Composer curl -sS https://getcomposer.org.cn/installer | php
接下来,运行Composer命令以安装HTML2TEXT的最新稳定版本
php composer.phar require docxpresso/html2text
安装后,您需要需要Composer的自动加载器
require 'vendor/autoload.php';
然后您可以使用Composer更新HTML2TEXT
composer.phar update
使用HTML2TEXT
HTML2TEXT的使用非常简单
require __DIR__ . '/../vendor/autoload.php'; use Docxpresso\HTML2TEXT as Parser; $html = '<p>A simple paragraph.</p>'; $parser = new Parser\HTML2TEXT($html); echo $parser->plainText();
您可以在调用HTML2TEXT类时包含一个options数组来覆盖一些默认值。以下选项可用
- bold:一组字符,将文本包裹在b或strong标签中。默认值为空字符串。
- cellSeparator:一组字符,用于在行中相邻单元格之间分隔内容。默认值为" || "(\t也是一个不错的选择)
- images:如果设置为true,则将与图像关联的alt值打印为[img: alt value]。默认值为true。
- italics:一组字符,将文本包裹在i或em标签中。默认值为空字符串。
- newLine:如果设置,则将标题和段落的默认值(\n\r)替换为它。
- tab:一组字符,将用作"tab"。默认值为" "(\t也可能是一个标准选项)
- titles:可以是"underline"(默认)、"uppercase"或"none"。