【问题标题】:Adding language profile to Apache Tika将语言配置文件添加到 Apache Tika
【发布时间】:2011-09-07 19:49:49
【问题描述】:

请任何设法做到这一点的人解释一下如何做到这一点:-)

我需要为我需要添加的语言获取 n-gram 文件吗?

是否需要创建tika.language.override.properties,添加一些其他语言代码并在 classPath 上添加 lang-code.ngp n-gram 文件?在那种情况下,我从哪里得到它,为什么 Tika 不支持更多的语言,如果只是这个问题?

语言检测目前支持这些语言

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th

tika 使用传统的 n-gram 表示法

er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528

这个lang detection application 目前支持这些语言,但有一些不同的 n-gram 文件

af  bg  cs  de  en  fa  fr  he  hr  id  ja  ko  ml  ne  no  pl  ro  sk  sq  sw   te  tl  uk   vi     zh-tw ar  bn  da  el  es  fi   gu  hi  hu  it  kn  mk  mr   nl   pa  pt  ru  so   sv  ta  th   tr  ur  zh-cn

JSON 表示法

{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....

【问题讨论】:

    标签: java apache-tika language-detection


    【解决方案1】:

    TIKA-490 开始,应该可以添加新的语言配置文件。 TIKA-546 似乎表明它还没有想象中那么容易,同时您需要从 Nutch 的 NGramProfile 工具开始并调整输出。

    我建议您尝试使用 Nutch 工具生成文件,然后查看 TIKA-490 上的 cmets 了解如何使用它们的详细信息。

    【讨论】:

    • tika 中的语言标识符很奇怪。它只需要 3 个字符长的字符串的 ngram 文件……Tika 中已经存在的文件具有像“cot”、“be_”这样的 ngram、三个字符长的 ngram 或两个带有“_”前缀/后缀的字符长 ngram……是不是很奇怪?我应该使用 NGramProfile 工具
    • 其实我做不到,因为 Nuch 或 Tika 中没有 NGramProfile ......它从源代码库中消失了......
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-01-20
    • 1970-01-01
    相关资源
    最近更新 更多