【问题标题】:sphinx search: how to get the frequency word list that are stemmed?sphinx search:如何获取词干的频率词列表?
【发布时间】:2012-10-26 14:57:39
【问题描述】:

我正在尝试从indexer 命令行工具中获取单词的频率列表,并使用未提取的单词来获取它,尽管我在索引设置中设置了morphology = stem_en,并且搜索本身在具有相同词干的单词上也能正常工作。有没有办法得到带有词干的列表?

【问题讨论】:

    标签: sphinx stemming


    【解决方案1】:

    我能想到的唯一方法是获取索引器的输出,然后通过 BuildKeywords API 运行它,以获得词干计数。可以在一个 API 调用中放置数千个关键字,因此非常轻量级。

    【讨论】:

    • 您能否根据您的建议指定应该做什么。我正在使用带导轨的thinking_sphinx 包装器。这是否意味着我必须使用 Java 或 PHP 来创建该列表?因为我没有找到任何关于 ruby​​ 库的参考资料。
    • 抱歉,找到了rubydoc.info/github/kpumuk/sphinx/Sphinx/Client:BuildKeywords。无论如何,我仍然对如何将索引器输出获取到此方法感到困惑。
    • 可以通过系统调用 stackoverflow.com/questions/690151/… 运行索引器 - 将它们写入临时文件,然后读取。
    猜你喜欢
    • 1970-01-01
    • 2020-09-11
    • 1970-01-01
    • 1970-01-01
    • 2021-11-16
    • 2020-08-20
    • 2022-01-10
    • 2012-05-14
    • 1970-01-01
    相关资源
    最近更新 更多