【发布时间】:2013-07-23 16:10:31
【问题描述】:
我正在从 HTML 生成 PDF,但我的 PDF 页面没有将其解释为普通文本,而是用<p>、<li> 等 html 标签填充。
【问题讨论】:
-
html 内容,如
、
、
等
我正在从 HTML 生成 PDF,但我的 PDF 页面没有将其解释为普通文本,而是用<p>、<li> 等 html 标签填充。
【问题讨论】:
、
您需要删除所有标签并取消转义特殊字符。
PHP 示例:
$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);
VB.NET 示例:
Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)
Java 示例:
text = html.replaceAll("<[^>]*>", "");
对于 html 实体解码,您可以在这里找到一个很好的答案:Java: How to unescape HTML character entities in Java?。否则,如果您知道所有这些(&nbsp;,&quot;,...),则可以替换它们。
【讨论】: