【问题标题】:PHP Help converting diacritic characters to HTML quotesPHP 帮助将变音符号转换为 HTML 引号
【发布时间】:2011-04-18 21:20:36
【问题描述】:

我有一堆客户希望在其网站上显示的 MS Word 文件。我已经使用“另存为网页”将它们转换为 HTML——是的,我知道这会产生糟糕的 HTML,但我尝试过的其他方法会丢失嵌入图像的链接。

在大多数情况下,我可以使用 PHP 来清理显示,但有一个项目让我完全困惑:所有单引号和双引号都以带有变音符号(重音)的各种字母出现,我不知道如何检测它们并将它们转换为正确的 HTML 实体。例如:Õ(O波浪号)应该是单引号,Ò(O坟墓)应该是开放双引号,Ó(O锐角)应该是关闭双引号。我尝试了 htmlentities、iconv 和一堆其他方法,但都没有成功。

【问题讨论】:

  • 你的输出编码是什么?

标签: php html ms-word character


【解决方案1】:

文字一团糟!对于单个文件,我会通过以下方式运行:http://word2cleanhtml.com/

如果这将是一个持续的事情,那么有完整的文件库专门用于对 Web 的 Word 文档进行去字化处理。试试HTML TidyHTML Purifier

如果您要使用 WYSIWYG 类型的工具并且此操作正在进行中,CKEditor 将自动删除 Word HTML 垃圾。 CK 与 TinyMCE 和其他人的区别在于,即使用户忘记执行“从 Word 复制”,它仍然不会让坏东西通过。

自从使用 CK 和 Tidy 以来,尽管有数百名具有不同网络知识水平的用户在使用我的公司网站,但我从未遇到过任何问题。在更改之前,这几乎是每天都会出现的问题。

【讨论】:

    【解决方案2】:

    我建议将那些糟糕的 html 文件打开到编辑器中,例如:Notepad++,然后在所有打开的文档中进行搜索和替换。

    【讨论】:

    • 对此进行扩展,Notepad++ 默认带有 TextFX 插件,该插件具有“HTML Tidy -> 清洁 Microsoft Word 2000 文档”功能(诚然,我从来没有使用过这个东西)。
    【解决方案3】:

    Word 文档的编码是什么?您可以尝试通过 PHP 匹配原始编码或将 Word 文档的编码更改为类似 UTF-8 的编码,并确保您的页面也显示为 UTF-8。

    【讨论】:

      猜你喜欢
      • 2013-01-20
      • 2016-09-23
      • 1970-01-01
      • 2013-02-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-01-21
      • 2019-05-16
      相关资源
      最近更新 更多