【问题标题】:How to measure semantic relationship between two webpages如何衡量两个网页之间的语义关系
【发布时间】:2013-05-01 18:16:34
【问题描述】:

假设,我正在访问一个大学网页。那里有很多老师的简介。尽管这些页面在语法上不相关,但它们在语义上是相关的。我如何衡量这种类型的关系?实际上我应该关注哪个参数来找到关系?

【问题讨论】:

    标签: data-mining semantics text-mining web-mining site-mining


    【解决方案1】:

    This SO 帖子回答了如何计算短语之间的语义相似度。 在您的情况下,您只需将不同的页面表示为文档并遵循相同的方法。

    在您的情况下,您的算法可以利用更多信息,例如页面或出版物之间的链接(如果是研究人员)。我希望这个链接有点帮助......

    【讨论】:

      【解决方案2】:

      这里有一个简单但非常好的算法:

      当然,每位教师的页面和链接页面都包含在语义上表征该教授的文本。 假设您创建了一组由教授页面和链接页面上的文本连接组成的单词(您可以继续连接文本继续跟随链接直到任意深度)。

      现在,您可以根据使用向量空间模型提取的信息对教授进行聚类: 每个教授由一个向量表示,其分量是提取的页面中包含的单词和值相关的词频。 余弦相似度将完成剩下的工作。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-04-18
        • 2016-07-23
        • 2022-08-22
        • 2020-10-13
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多