谷歌翻译错过了我文件的编码答案

【问题标题】：google translate misses up the coding of my file谷歌翻译错过了我文件的编码
【发布时间】：2014-05-25 10:38:51
【问题描述】：

我正在尝试使用谷歌翻译来本地化 XML 文件，它有近 350K 行，但其中一些包含游戏内字体大小和颜色的编码，如下所示：

<replacement>&lt;p horizontalalignment="center"&gt;&lt;br/&gt;&lt;image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/&gt;&lt;br/&gt;&lt;image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Six_Superior" scalerate="1.5"/&gt;&lt;image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/&gt;&lt;br/&gt;&lt;image enablescale="true" imagesetpath="00009499.Field_Boss" scalerate="1.4"/&gt;Хмельной лик&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;Уничтожить зараженных насекомых&lt;br/&gt;возле мест обитания их королевы。&lt;br/&gt;</replacement>

现在天知道是什么原因，谷歌翻译把翻译过程中的代码改成了一些不可接受的编码，像这样：

<replacement> <p horizontalalignment="center"> <br/> <image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/> <br/> <image enablescale = "true "imagesetpath =" 00015590.Tag_Dungeon_Six_Superior "scalerate =" 1.5 "/> <image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/> <br/> <image enablescale = "true" imagesetpath = "00009499.Field_Boss" scalerate = "1.4" /> Intoxicated face <br/> <br/> </ p> Destroy infected insects <br/> habitats near their queen. <br/> </ replacement>

有什么办法可以避免这种情况，为什么会发生这种情况？对此问题的任何帮助表示赞赏，谢谢

编辑：我也在寻找一种方法来输入我的文本并以相同的语言将其输出，只有编码事故发生变化，所以我可以隔离这些，建立一个比较表和然后在实际翻译完成后使用它来修复错误，但我看不到在谷歌翻译中选择与输入和输出相同的语言的方法，它总是迫使我在输入或输出中选择不同的语言，有点有道理，但如果有办法做到这一点，我也许可以解决它..

【问题讨论】：

标签： localization google-translate google-translator-toolkit

【解决方案1】：

据我所知，不要用你的 Xml 文件向谷歌翻译提供它不理解 Xml。

从 Xml 文件中提取文本。

输入要翻译的文本。

将文本转换回 Xml。

您可以简单地将 Xml 转换为文本文档，每个 Xml 元素只有一行，这样更容易将其转换回 Xml。

更多细节

根据Toolkit可以上传：

HTML (.HTML)
Microsoft Word (.DOC/.DOCX)
OpenDocument Text (.ODT)
Plain Text (.TXT)
Rich Text (.RTF)
Wikipedia URLs

还有一些附加功能，例如 JSON。所以没有 Xml。

我看到的最好的方法是将您的 Xml 文档转换为其中一种类型（我可能会使用 JSON）并将其转换为可以通过使用任一位置（在text 文件是 Xml 文档中的第一个元素）或通过 id（将元素在 xml 层次结构中的 Id 或位置添加到 JSON 元素）

我的猜测是该工具包可以识别 xml 中的 html 标签并将其转义。所以另一种选择可能是将&gt; 转义为> 和&lt 转义为<

【讨论】：

这正是我在上面作为示例发布的行所做的，当我翻译整个内容时，它是文本形式而不是 xml 形式..无论我提供什么形式google translate，结果是一样的，总是按照我贴的方式改代码。
也不要传递 html 编码的文本。只是简单的英语。先提取英文文本
首先，我想提取俄语文本（翻译成英文），其次..你建议我怎么做？！我的意思是我不能在 350,000 行中手动完成！如果我设法以某种方式完成它，我如何在翻译完成后将其重新合并为正确位置的原始编码格式？任何想法表示赞赏..
@user3658890 - 我添加到我的答案中
XML 文档只是一堆连续的行，没有什么特别之处，当我将整个文件复制/粘贴到文本文件 (.txt) 中时，我有格式完全没有问题。就像我说的，当我第一次上传文件时，它是“.txt”格式而不是 xml！现在我没有得到“un-escape”部分..我真的不知道那是什么意思，请详细说明。