生成的 PDF 中的 HTML 内容存在问题答案

【问题标题】：Problems with HTML content in generated PDF生成的 PDF 中的 HTML 内容存在问题
【发布时间】：2013-07-23 16:10:31
【问题描述】：

我正在从 HTML 生成 PDF，但我的 PDF 页面没有将其解释为普通文本，而是用<p>、<li> 等 html 标签填充。

【问题讨论】：

【解决方案1】：

您需要删除所有标签并取消转义特殊字符。

PHP 示例：

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

VB.NET 示例：

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Java 示例：

text = html.replaceAll("<[^>]*>", "");

对于 html 实体解码，您可以在这里找到一个很好的答案：Java: How to unescape HTML character entities in Java?。否则，如果您知道所有这些（&nbsp;，&quot;，...），则可以替换它们。

【讨论】：