【发布时间】:2009-03-25 09:51:57
【问题描述】:
我正在寻找一个可以对德语单词进行形态分析的库,即将任何单词转换为其根形式并提供有关所分析单词的元信息。
例如:
gegessen -> essen
wurde [...] gefasst -> fassen
Häuser -> Haus
Hunde -> Hund
我的愿望清单:
- 它必须与名词和动词一起使用。
- 我知道,鉴于德语的复杂性,这是一项非常艰巨的任务,因此我也在寻找仅提供近似值或可能只有 80% 准确度的库。
- 我更喜欢不支持字典的库,但鉴于情况,我也愿意妥协。
- 我还更喜欢 C/C++/Delphi Windows 库,因为这会使它们更容易集成,但 .NET、Java 等也可以。
- 它必须是一个免费的图书馆。 (L)GPL、MPL、...
编辑:我知道,由于单词不规则,根本无法在没有任何字典的情况下进行形态分析。 当我说,我更喜欢没有字典的库时,我的意思是那些映射每个单词的完整字典:
arbeite -> arbeiten
arbeitest -> arbeiten
arbeitet -> arbeiten
arbeitete -> arbeiten
arbeitetest -> arbeiten
arbeiteten -> arbeiten
arbeitetet -> arbeiten
gearbeitet -> arbeiten
arbeite -> arbeiten
...
这些词典有几个缺点,包括体积庞大和无法处理未知单词。
当然所有的异常只能用字典来处理:
esse -> essen
isst -> essen
eßt -> essen
aß -> essen
aßt -> essen
aßen -> essen
...
(我现在脑子里都在转:))
【问题讨论】:
标签: morphological-analysis languagetool