【问题标题】:text mining in sqlitesqlite中的文本挖掘
【发布时间】:2011-08-24 07:33:00
【问题描述】:

我有 sqlite 数据库,需要在其中找到最常用的单词。 例如,

文字
桌椅地板
桌椅

需要解决方案

字数
表 3
椅子 2
1 楼

数据库很大(几个 Gb)。我正在寻找 SQL 中的解决方案。也可能使用 C++ 或其他方法。

【问题讨论】:

  • 您在哪些方面需要帮助?从 C++ 访问 sqlite 数据库或制定完成这项工作的 sql 语句?
  • 制定完成这项工作的 sql 语句
  • 请在您的问题中描述您的数据库表结构。
  • 真实表只有2列:user_id、comment

标签: c++ sql sqlite data-mining text-mining


【解决方案1】:

Sqlite 没有任何命令,它允许从单个字符串生成多行(并且不容易拥有;这样的事情需要对 SQL 进行“解包”扩展)。因此,您需要一个应用程序代码来将 cmets 拆分为单词。您可以创建一个表格,在其中将每个单词插入单独的行而不是select word, count(rowid) from words group by word,或者您可以在应用程序中使用哈希映射直接计算单词。

【讨论】:

    【解决方案2】:

    http://www.sqlite.org/fts3.html

    查看Fts4aux - 直接访问全文索引部分。

    【讨论】:

    • 这将是一个针对索引文件的选择语句,按 [occurrences] 降序排序。
    猜你喜欢
    • 2019-05-05
    • 2013-02-09
    • 1970-01-01
    • 1970-01-01
    • 2011-02-07
    • 2013-04-29
    • 2019-06-04
    • 2012-05-08
    • 2014-05-18
    相关资源
    最近更新 更多