在 PDF 文档中搜索希腊字符答案

【问题标题】：Searching for greek characters within a PDF document在 PDF 文档中搜索希腊字符
【发布时间】：2012-02-11 10:49:15
【问题描述】：

我不知道如何在 pdf 中搜索希腊字母。我怎样才能做到这一点？理想情况下，我可以在 pdf 查看器软件包中执行此操作。

从我看到的论坛帖子中，希腊字母不属于 pdf 规范中包含的标准 unicode 字符。

【问题讨论】：

为什么不能检查字母是否匹配 [\u0391-\u03A9,\u03B1-\u03C9]？
当我使用 xpdf 中的 pdftotext 命令时，希腊字符显示为拉丁字符。我认为这是因为 utf-8 中的 pdftotext 输出不包含希腊字母 link 我可以使用什么 pdf2text 输出设置来包含希腊字符？
不过，我最好在 pdf-XChange 查看器等程序中搜索这些字符。我只能输入我在搜索框中键入的字母，所以我不知道如何表明我想搜索 unicode 编码而不是组成 unicode 编码的字符（例如\u0391）如果你明白我的意思。
对于您的第一条评论，您是否尝试过“pdftotext -enc UTF-8 input.pdf output.txt”？
ASCII7 似乎可以修复连字错误，但不能修复希腊字母。当我在 emacs 中查看 UTF-8 时，f 连字和希腊字母都会出错。当然，我可能没有安装正确的 emacs 插件，这可能是我问题的根源。在 emacs 中看到希腊字母并不能真正解决我的问题。我需要一个可以搜索希腊字符的软件包，如 pdf-exchange、qiqqa 或类似软件。

【解决方案1】：

我已经找出了我做错了什么，这是非常基本的。

我可以通过使用字符映射或切换到希腊字母键盘来搜索希腊字母，例如 αβγ。

这通常会找到希腊字符。但是，许多 PDF 不能正确识别希腊字符，而是有一个 gobbledygook 近似于具有其他形状的字符。这大概取决于 PDF 的制作方式。

【讨论】：