【发布时间】:2018-08-28 11:53:01
【问题描述】:
我的 mysql weightallofwordsintopic 表中有以下数据。
Topic Name Word WordCount
20160401-20160405 ahlak 954
20160401-20160405 çocuk 825
20160401-20160405 kadın 764
20160401-20160405 tecavüz 710
20160401-20160405 güzel 701
20160401-20160405 hayat 670
20160401-20160405 bakan 661
20160401-20160405 zaman 585
20160401-20160405 adam 494
20160401-20160405 çalış 453
20160406-20160407 kandil 4927
20160406-20160407 mübarek 2906
20160406-20160407 hayır 2342
20160406-20160407 çocuk 1893
20160406-20160407 güzel 1835
20160406-20160407 regaip 1574
20160406-20160407 allah 1536
20160406-20160407 tecavüz 1457
20160406-20160407 kadın 1442
20160406-20160407 hayat 1436
20160408-20160409 güzel 2385
20160408-20160409 hayat 2187
20160408-20160409 hayır 1972
20160408-20160409 zaman 1902
20160408-20160409 cuma 1589
20160408-20160409 allah 1550
20160408-20160409 gece 1233
20160408-20160409 adam 1198
20160408-20160409 saat 1153
20160408-20160409 dünya 1130
20160410-20160411 stat 1993
20160410-20160411 güzel 1854
20160410-20160411 hayat 1579
20160410-20160411 şampiyon 1464
20160410-20160411 taraftar 1426
20160410-20160411 zaman 1380
20160410-20160411 adam 1336
20160410-20160411 çalış 1297
20160410-20160411 saat 1283
20160410-20160411 başkan 1112
我想测量每个主题中每个单词的 tf/idf 频率。假设一个主题与一个文档同名,所以我需要分别测量所有单词的 tf/idf 频率。我需要对此进行 mysql 查询。WordCount 是该主题中该词的出现次数。我的桌子太大了,我只是写了一个示例来解释我的问题。我需要一个查询来完成这项工作。非常感谢。
【问题讨论】:
-
这里是 BigQuery (google cloud) 中的一个示例 sql,可能你可以在 mySql 中实现类似的:stackoverflow.com/questions/47028576/…
-
@anonyXmous,我看到了那个示例,但我无法根据我的要求转换它,而我对 mysql 的了解较少
-
最好在 R 或 Python 中运行 tf idf。两者都有会给你结果的库,而不是在 mysql 中实现一个新的库。您是否要求只使用 mysql?
-
@anonyXmous 不幸的是,我所有的工作都依赖于这些数据,我必须使用 mysql 找到解决方案。感谢您的关注。
-
好吧,我已经接受了这个挑战。正在努力。仅使用 mysql 计算 tf-idf。你已经有了字数,所以这是一个很大的帮助。
标签: mysql tf-idf tfidfvectorizer