【问题标题】:Searching for greek characters within a PDF document在 PDF 文档中搜索希腊字符
【发布时间】:2012-02-11 10:49:15
【问题描述】:

我不知道如何在 pdf 中搜索希腊字母。我怎样才能做到这一点?理想情况下,我可以在 pdf 查看器软件包中执行此操作。

从我看到的论坛帖子中,希腊字母不属于 pdf 规范中包含的标准 unicode 字符。

【问题讨论】:

  • 为什么不能检查字母是否匹配 [\u0391-\u03A9,\u03B1-\u03C9]?
  • 当我使用 xpdf 中的 pdftotext 命令时,希腊字符显示为拉丁字符。我认为这是因为 utf-8 中的 pdftotext 输出不包含希腊字母 link 我可以使用什么 pdf2text 输出设置来包含希腊字符?
  • 不过,我最好在 pdf-XChange 查看器等程序中搜索这些字符。我只能输入我在搜索框中键入的字母,所以我不知道如何表明我想搜索 unicode 编码而不是组成 unicode 编码的字符(例如\u0391)如果你明白我的意思。
  • 对于您的第一条评论,您是否尝试过“pdftotext -enc UTF-8 input.pdf output.txt”?
  • ASCII7 似乎可以修复连字错误,但不能修复希腊字母。当我在 emacs 中查看 UTF-8 时,f 连字和希腊字母都会出错。当然,我可能没有安装正确的 emacs 插件,这可能是我问题的根源。在 emacs 中看到希腊字母并不能真正解决我的问题。我需要一个可以搜索希腊字符的软件包,如 pdf-exchange、qiqqa 或类似软件。

标签: pdf unicode utf-8 character-encoding


【解决方案1】:

我已经找出了我做错了什么,这是非常基本的。

我可以通过使用字符映射或切换到希腊字母键盘来搜索希腊字母,例如 αβγ。

这通常会找到希腊字符。但是,许多 PDF 不能正确识别希腊字符,而是有一个 gobbledygook 近似于具有其他形状的字符。这大概取决于 PDF 的制作方式。

【讨论】:

    猜你喜欢
    • 2013-08-17
    • 1970-01-01
    • 1970-01-01
    • 2021-07-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-04-02
    相关资源
    最近更新 更多