【发布时间】:2011-07-24 09:36:12
【问题描述】:
Python:聚类搜索引擎关键字
嗨, 我有一个 CSV,最多 20,000 行(我有 100,000+ 用于不同的网站),每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站),以及访问次数。
我想要做的是将这些关键字聚集成“相似含义”的集群,并创建集群的层次结构(按每个集群的总搜索次数排序)。
一个示例集群 - “女装” - 理想情况下包含以下关键字: 女装, 1000 女装,300 女装,50 女士服装, 6 女装,2
我可以使用 Python Natural Language Toolkit:http://www.nltk.org/ 和 WordNet 之类的工具,但是,我猜测对于某些网站,引用的关键字将是 WordNet 一无所知的单词/短语。例如,如果网站是名人网站,WordNet 不太可能知道有关“Lady Gaga”的任何信息,如果网站是新闻网站,情况会更糟。
所以,我也因此猜测解决方案必须是看起来只使用源数据本身的解决方案。
我的查询与How to cluster search engine keywords? 提出的查询非常相似,只是我正在寻找可以开始的地方,但使用的是 Python 而不是 Java。
我也想知道 Google Predict 和/或 Google Refine 是否有用。
无论如何,欢迎提出任何想法/建议,
谢谢, C
【问题讨论】:
-
忍不住兜售我自己的answer to a related question。
标签: python text nlp cluster-analysis keyword