【发布时间】:2012-02-11 10:49:15
【问题描述】:
我不知道如何在 pdf 中搜索希腊字母。我怎样才能做到这一点?理想情况下,我可以在 pdf 查看器软件包中执行此操作。
从我看到的论坛帖子中,希腊字母不属于 pdf 规范中包含的标准 unicode 字符。
【问题讨论】:
-
为什么不能检查字母是否匹配 [\u0391-\u03A9,\u03B1-\u03C9]?
-
当我使用 xpdf 中的 pdftotext 命令时,希腊字符显示为拉丁字符。我认为这是因为 utf-8 中的 pdftotext 输出不包含希腊字母 link 我可以使用什么 pdf2text 输出设置来包含希腊字符?
-
不过,我最好在 pdf-XChange 查看器等程序中搜索这些字符。我只能输入我在搜索框中键入的字母,所以我不知道如何表明我想搜索 unicode 编码而不是组成 unicode 编码的字符(例如\u0391)如果你明白我的意思。
-
对于您的第一条评论,您是否尝试过“pdftotext -enc UTF-8 input.pdf output.txt”?
-
ASCII7 似乎可以修复连字错误,但不能修复希腊字母。当我在 emacs 中查看 UTF-8 时,f 连字和希腊字母都会出错。当然,我可能没有安装正确的 emacs 插件,这可能是我问题的根源。在 emacs 中看到希腊字母并不能真正解决我的问题。我需要一个可以搜索希腊字符的软件包,如 pdf-exchange、qiqqa 或类似软件。
标签: pdf unicode utf-8 character-encoding