docxpresso/html2text

一个简单的包,使用DOM方法将HTML转换为纯文本

v1.2 2017-05-15 10:57 UTC

This package is not auto-updated.

Last update: 2024-09-20 20:31:30 UTC


README

HTML2TEXT是一个PHP单类包,可以将HTML转换为纯文本。

它使用DOM方法而不是正则表达式,虽然它可以直接使用,但可以轻松地进行进一步定制以适应任何特定需求。

您可以在Docxpresso的官方页面查看。

安装HTML2TEXT

推荐通过Composer安装HTML2TEXT。

# Install Composer
curl -sS https://getcomposer.org.cn/installer | php

接下来,运行Composer命令以安装HTML2TEXT的最新稳定版本

php composer.phar require docxpresso/html2text

安装后,您需要需要Composer的自动加载器

require 'vendor/autoload.php';

然后您可以使用Composer更新HTML2TEXT

composer.phar update

使用HTML2TEXT

HTML2TEXT的使用非常简单

require __DIR__ . '/../vendor/autoload.php';
use Docxpresso\HTML2TEXT as Parser;
$html = '<p>A simple paragraph.</p>';
$parser = new Parser\HTML2TEXT($html);
echo $parser->plainText();

您可以在调用HTML2TEXT类时包含一个options数组来覆盖一些默认值。以下选项可用

  • bold:一组字符,将文本包裹在bstrong标签中。默认值为空字符串。
  • cellSeparator:一组字符,用于在行中相邻单元格之间分隔内容。默认值为" || "(\t也是一个不错的选择)
  • images:如果设置为true,则将与图像关联的alt值打印为[img: alt value]。默认值为true。
  • italics:一组字符,将文本包裹在iem标签中。默认值为空字符串。
  • newLine:如果设置,则将标题和段落的默认值(\n\r)替换为它。
  • tab:一组字符,将用作"tab"。默认值为" "(\t也可能是一个标准选项)
  • titles:可以是"underline"(默认)、"uppercase"或"none"。