【发布时间】:2013-05-01 18:16:34
【问题描述】:
假设,我正在访问一个大学网页。那里有很多老师的简介。尽管这些页面在语法上不相关,但它们在语义上是相关的。我如何衡量这种类型的关系?实际上我应该关注哪个参数来找到关系?
【问题讨论】:
标签: data-mining semantics text-mining web-mining site-mining
假设,我正在访问一个大学网页。那里有很多老师的简介。尽管这些页面在语法上不相关,但它们在语义上是相关的。我如何衡量这种类型的关系?实际上我应该关注哪个参数来找到关系?
【问题讨论】:
标签: data-mining semantics text-mining web-mining site-mining
This SO 帖子回答了如何计算短语之间的语义相似度。 在您的情况下,您只需将不同的页面表示为文档并遵循相同的方法。
在您的情况下,您的算法可以利用更多信息,例如页面或出版物之间的链接(如果是研究人员)。我希望这个链接有点帮助......
【讨论】:
这里有一个简单但非常好的算法:
当然,每位教师的页面和链接页面都包含在语义上表征该教授的文本。 假设您创建了一组由教授页面和链接页面上的文本连接组成的单词(您可以继续连接文本继续跟随链接直到任意深度)。
现在,您可以根据使用向量空间模型提取的信息对教授进行聚类: 每个教授由一个向量表示,其分量是提取的页面中包含的单词和值相关的词频。 余弦相似度将完成剩下的工作。
【讨论】: