【问题标题】:How to count words characters or sentence from uploaded file PDF, Doc, Xls, Csv, etc etc如何从上传的文件 PDF、Doc、Xls、Csv 等中计算单词字符或句子
【发布时间】:2010-12-30 14:38:25
【问题描述】:

如何从上传的 PDF、Doc、Xls、Csv 等文件中计算字数。使用 PHP、Zend 框架或基于 CLI 的 Java 触发器?

【问题讨论】:

  • csv 很简单。所以你想要工具来逆向工程 pdf、doc、xls...?
  • 以编程方式解析 PDF 并非易事。最好使用 3rd 方 pdf 阅读器,即使在字序方面也有问题,但如果你只需要字数统计,它们非常有效。 PDF 的布局类似于拼贴画。线没有严格的定义。对你来说看起来像一条完美的直线,在几何上可能是一团糟。
  • $wc filename.pdf 或任何给出这个> 46 265 13025 file.odt
  • @pouncep,是的,在 linux 中我有这个,但这是来自终端示例的错误计数器:$ wc filename.pdf or filename.doc or filename.csv or filename.xls
  • @P.Brian.Mackey: 0.o 哪一个对 ZF 和 Java 友好?没有开源框架或库吗?

标签: java php zend-framework


【解决方案1】:

这是一个第三方应用程序http://www.globalrendering.com/download.html。您可以为它创建一个简单的包装器。就 wc 而言,它对于这些文件类型并不准确。见http://ubuntuforums.org/showthread.php?t=566407

【讨论】:

  • 谢谢,糟糕,它是 Windows 平台的安装。 CentOS 或 Fedora 什么都没有?
  • 是的,确实如此,wc 对于其他文件格式并不准确。在 Linux 平台下用于计算单词等似乎非常复杂的部分,用于实时或交互式解决方案开发。
  • 嗯,对于 PDF 部分,您可以将其另存为文本并对普通文本文件进行字数统计。有一个脚本blog.yeticode.co.uk/2009/03/get-pdf-word-count-in-linux。同样,对于 word,不确定它在 excel 上的效果如何。
  • 我有 11 个(字)它显示 10,这是我们可以达到的最大猜测吗?例如:gist.github.com/759888
【解决方案2】:

首先,你应该看看tika 它是用 Java 编写的,是免费的(Apache 许可),可以将您提到的所有格式转换为文本。在那之后,字数应该是微不足道的。

您还可以使用 linux 命令行实用程序来转换为文本,并围绕它们编写一个简单的包装器。

(由于缺乏声誉,我无法链接到这些。使用您的 Google-fu。)

  • pdf:pdftotext(xpdf 的一部分)。另请参阅关于 SuperUser 的问题 #221359。
  • doc(x): abiword, catdoc, antiword, docxtotxt ... 另请参阅 SuperUser 上的问题 165978。
  • xls(几乎所有内容,但需要 OpenOffice):unoconv

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-06-23
    • 2011-01-16
    • 2020-06-22
    • 2021-08-03
    • 1970-01-01
    • 2020-04-25
    • 1970-01-01
    相关资源
    最近更新 更多