【问题标题】:How to detect the exact type of a document in java如何在java中检测文档的确切类型
【发布时间】:2023-03-07 07:41:01
【问题描述】:

如何在 java 中检测文档的确切类型。实际上,我会在运行时获得很多文档,如文章、手册和指南等,我需要使用 java 识别它们的实际类型。文档可以是 PDF、HTML、DOC、XML 等。我什至没有文档的扩展名。请参阅我将从 db 获取文档。如果只有 PDF,我将拥有扩展名,但对于 HTML 和其他文件,我将没有扩展名。其实只有拿到内容后,我才需要判断它是哪种内容,然后我会实现我的业务逻辑......请帮助我。

【问题讨论】:

  • 为什么没有扩展/内容类型?文件是如何到达您手中的?
  • 请参阅我将从 db 获取文档。如果只有 PDF,我将拥有扩展名,但对于 HTML 和其他文件,我将没有扩展名。其实只有拿到内容后,我才需要判断它是哪种内容......
  • 最佳实践是捕获 mime 类型以及数据。您应该有两列,一列用于 MIME 类型,一列用于数据。
  • @kirk,是的,Kirk,我应该这样做,但我不会在任何列中都有 MIME 类型,实际上在获得内容后,我将不得不猜测正确的 mime 类型飞。假设我将获得像“

    WELCOME KIRK WOLL

    ”这样的字符串内容。我必须检测此文档 text/html 的 mime 类型,然后我必须在一个阴影框中打开它,并为检测到的 mime 类型提供一个适当的图标。我希望你能明白我的意思。

标签: java


【解决方案1】:

Apache Tika 具有检测 MIME 类型文件的功能:

http://tika.apache.org/

不过,它的重量级相当大,因为它不仅仅做 MIME 类型检测。

【讨论】:

    【解决方案2】:

    试试FITS,它封装了以下用于识别、验证和提取技术元数据的工具:

    1. 乔夫
    2. Exiftool
    3. 新西兰国家图书馆元数据提取器 (NLNZ)
    4. 文件实用程序
    5. 机器人
    6. FFIdent
    7. 文件信息
    8. Xml元数据

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-12-03
      • 1970-01-01
      • 2016-05-23
      • 2018-07-28
      • 1970-01-01
      • 1970-01-01
      • 2016-07-15
      • 1970-01-01
      相关资源
      最近更新 更多