【发布时间】:2017-11-06 17:45:51
【问题描述】:
我无法从 pdf 文件中复制印地语内容。当我尝试复制/粘贴该内容时,它会更改为不同的印地语字符。
示例- 原创 - विधान सभा
粘贴后-नरधरन सभर
它是这样显示的。
谁能帮我得到确切的印地语字符。
【问题讨论】:
-
尝试 ocr 解决方案。有许多文档具有误导性或缺少文本信息,尤其是印地语文档。
我无法从 pdf 文件中复制印地语内容。当我尝试复制/粘贴该内容时,它会更改为不同的印地语字符。
示例- 原创 - विधान सभा
粘贴后-नरधरन सभर
它是这样显示的。
谁能帮我得到确切的印地语字符。
【问题讨论】:
用什么来创建 PDF?
它很可能是使用嵌入式字体子集创建的,并且没有 toUnicode 映射。基本上,PDF 内容中使用的字符代码被映射到嵌入在 PDF 中显示的字形,但没有从这些代码映射到常规 Unicode 代码,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的 OCR。
另一种可能是您将其粘贴到的应用程序没有正确塑造字符。
【讨论】: