【问题标题】:Replacing Word special characters with their "normal" defaults用“正常”默认值替换 Word 特殊字符
【发布时间】:2011-06-16 01:53:06
【问题描述】:

由于用户从 Word 复制粘贴文本,如下所示:

 “What’s the matter?” PART 2– A Review”

结果是:

 %93What%92s the matter?%94 PART 2%96 A Review%94

我需要它:

 "What's the matter?" PART 2- A Review"

我正在寻找一个可以转换此类文本并以标准化方式执行此操作的 PHp 库,因为除了我在此处列出的字符之外,还有更多字符 - 例如 (c) 版权符号等。 .

【问题讨论】:

  • 从 Word 粘贴是所有开发人员的眼中钉。

标签: php text ms-word smart-quotes


【解决方案1】:

你想要iconviconv() 函数具有执行从特殊字符(例如 Latin1 (ISO 8859-1) 中的花括号)到您使用的任何编码(例如 UTF-8 中的花引号或直引号 ('))的适当字符的选项ASCII码。

如果这是一个 Web 表单,则浏览器可能已经从 Latin1 转换为 UTF-8。例如,如果你想以 ASCII 格式存储它,你可以这样:

$ascii = iconv('UTF-8', 'ASCII//IGNORE//TRANSLIT', $utf8);

【讨论】:

    【解决方案2】:

    试试这个

    function msword_conversion($str) 
    { 
    
        $invalid = array('Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z',
        'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A',
        'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E',
        'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O',
        'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y',
        'Þ'=>'B', 'ß'=>'Ss', 'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a',
        'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e',  'ë'=>'e', 'ì'=>'i', 'í'=>'i',
        'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o',
        'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y',  'ý'=>'y', 'þ'=>'b',
        'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r', "`" => "'", "´" => "'", "„" => ",", "`" => "'",
        "´" => "'", "“" => "\"", "”" => "\"", "´" => "'", "’" => "'", "{" => "",
        "~" => "", "–" => "-", "’" => "'");
    
        $str = str_replace(array_keys($invalid), array_values($invalid), $str);
    
        return $str;
    }
    

    【讨论】:

      【解决方案3】:

      我认为你正在寻找的是 urldecode()

      【讨论】:

        【解决方案4】:

        如前所述,urldecode() 是您要查找的函数。基本上,内容已被编码以供安全 URL 使用。但是请注意,word 使用 66 和 99 样式的引号字符,而不是大多数 HTML 内容中使用的标准引号字符串 " - 因此可能也值得对这些值执行 str_replace(),这样您就不需要当页面显示给具有该内容的用户时,担心字符编码。

        【讨论】:

        • 有点困惑为什么这被否决了 - 考虑到我回答了这个问题,并就可能的陷阱提供了建议。
        猜你喜欢
        • 1970-01-01
        • 2014-11-03
        • 2019-09-23
        • 1970-01-01
        • 2011-12-28
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多