【问题标题】:Hindi to english from pdf印地语到英语从pdf
【发布时间】:2017-11-06 17:45:51
【问题描述】:

我无法从 pdf 文件中复制印地语内容。当我尝试复制/粘贴该内容时,它会更改为不同的印地语字符。

示例- 原创 - विधान सभा

粘贴后-नरधरन सभर

它是这样显示的。

谁能帮我得到确切的印地语字符。

【问题讨论】:

  • 尝试 ocr 解决方案。有许多文档具有误导性或缺少文本信息,尤其是印地语文档。

标签: pdf hindi


【解决方案1】:

用什么来创建 PDF?

它很可能是使用嵌入式字体子集创建的,并且没有 toUnicode 映射。基本上,PDF 内容中使用的字符代码被映射到嵌入在 PDF 中显示的字形,但没有从这些代码映射到常规 Unicode 代码,因此复制它们会产生乱码。提取原始内容的唯一方法是使用某种形式的 OCR。

另一种可能是您将其粘贴到的应用程序没有正确塑造字符。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-04-08
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多