【发布时间】:2012-01-11 15:24:00
【问题描述】:
我正在使用 PHP,从网站获取 html,将它们转换为纯文本并将它们保存到数据库中。
它们需要以 utf-8 格式保存到数据库中。 我的第一个问题是我不知道原始编码,从未知编码编码到 utf-8 的最佳方法是什么?
第二个问题是 html 到纯文本的转换。我尝试使用 html2text 但它弄乱了所有外国 utf 字符。
最好的方法是什么?
编辑: 纯文本部分似乎不够清晰。我不需要只剥离 html 标签。我想在保持一种文档结构的同时剥离标签。 <p>、<li> 标签将转换为换行符等,<script> 等标签将与其内容一起完全删除。
【问题讨论】:
-
@AntonioLaguna utf8_encode 只转换以 ISO-8859-1 编码的字符串
-
不确定你到底想从
text/plain编码中得到什么(无论你是想保留标签,剥离标签,还是介于两者之间)......可能值得看看 HTML Purifier不过为了您的转换:htmlpurifier.org
标签: php html character-encoding arabic strip-tags