【问题标题】:How to find trending tags out of long search string如何从长搜索字符串中找到趋势标签
【发布时间】:2010-12-10 13:22:28
【问题描述】:

我想根据用户的搜索在我的网站中添加一个趋势标签。我没有看到简单解决方案的问题是如何轻松地从搜索字符串中提取重要术语。例如,许多用户可能会出于不同目的搜索“visual studio”。例如,“Visual Studio 2010”、“Visual Studio 单元测试”、“Visual Studio Web 表单组件”。在这 3 个搜索中,“视觉工作室”是趋势。一个算法怎么能注意到“visual studio”在大多数情况下会和很多其他词混在一起呢?

谢谢!

【问题讨论】:

    标签: search tags cloud


    【解决方案1】:

    看看这个 codeplex 项目

    http://www.codeplex.com/TheTagCloud

    包含一个函数,您可以将 html 文件作为输入传递给该函数,并将返回标签云。

    【讨论】:

    • TheTagCloud 似乎基于已知的标签。我认为这个问题试图找出如何最好地从内容中构建标签集。
    • @Stephen 该示例仅显示从字符串列表创建。该项目还支持 html 页面输入。
    • 是的,我实际上写过类似 TheTagCloud 的东西。更难找到的是如何根据在网站上进行的搜索来提取精确的标签。
    【解决方案2】:
    1. 将每个搜索查询拆分为单个单词的数组。
    2. 计算单词之间的距离(越近越好 => 值越高)
    3. 为所有查询中的每个单词对添加此单词距离。

    具有较高值的​​词对是您的“趋势标签”。

    【讨论】:

    • 听起来很有趣。你能提供更多细节吗?这个想法是将所有可能性或仅一个单词与后面的其他单词进行比较,直到数组的末尾?
    • 我曾经以多对多的方式执行此操作:比较给定字符串中的任意两个单词。一旦您意识到“价格视觉工作室”也使用视觉工作室作为“趋势标签”,这是有道理的。另一方面,您也可以仅针对第一个单词与第 n 个单词的关系执行此操作(这可以节省计算时间,但忽略“尾随标签”(说真的,必须 有一个更好的术语;))稍后出现在字符串中。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多