【问题标题】:Determine context/meaning of a web page (or paragraph of text)确定网页(或文本段落)的上下文/含义
【发布时间】:2011-05-08 18:23:01
【问题描述】:

当然,Google 多年来一直在这样做!但是,与其从头开始,不如花 10 年以上的时间浪费大笔金钱使用 PHP 的页面或文本块?

在基本层面上,我猜大多数蜘蛛会拉入单词,删除没有真正意义的单词,然后计算其余的。出现次数最多的词很可能是我感兴趣的词。

任何类型的指针都会非常感激!

【问题讨论】:

  • 有人见过圣杯吗?
  • 啊哈!那是Python线索对吗? NLP 工具nltk.org
  • LOL - Larry Page 刚刚将脚本通过电子邮件发送给我。不过说真的,我当然不是在寻找任何复杂的东西。一些关键字或非常粗略的上下文。

标签: php artificial-intelligence web-crawler


【解决方案1】:

潜在语义索引。

我可以给你指点,但你想查找/研究潜在语义索引。

这里没有解释它,而是来自网页的快速sn-p。

潜在语义索引是 本质上是一种提取方法 文件中没有的意思 匹配特定的短语。一个简单的 例如,一个文件 带有“Windows”、“Bing”等词, “Excel”和“Outlook”将是关于 微软。你不需要 “微软”一次又一次出现 知道这一点。

这个例子还强调了 考虑到的重要性 相关词,因为如果“windows” 出现在一个也有特色的页面上 “glazing”,它很可能是一个 完全不同的意思。

您当然可以采用从文本语料库中删除所有停用词的简单方法,但 LSI 肯定更准确。

我将在大约 30 分钟后更新这篇文章,提供更多信息。 (仍然打算更新这篇文章 - 工作太忙了)。

更新

好的,LSA 背后的基础是提供一种新的/不同的方法来根据特定的搜索时间检索文档。但是,您也可以很容易地使用它来确定文档的含义。 过去几年搜索的问题之一是它们基于关键字分析。如果您将雅虎/Altavista 从 1999 年末到大概 2002/03 年(不要引用我的话),他们非常依赖仅使用关键字作为从索引中检索文档的一个因素。但是,关键字除了它们所代表的关键字外,不要翻译成任何东西。 然而,关键字“Hot”的含义取决于它所处的上下文。如果你把“辣”这个词和它放在“辣椒”、“香料”或“草药”等其他词周围的身份,那么从概念上讲,当被其他人包围时,它的含义与“辣”这个词完全不同。诸如“热”或“温暖”或“性感”和“女孩”之类的术语。

LSA 试图通过处理统计概率矩阵(由您自己构建)来克服这些缺陷。

无论如何,请使用一些工具来帮助您构建此文档/术语矩阵(并将它们聚集在与其语料库相关的邻近区域)。这有利于搜索引擎,通过将关键字转换为概念,因此如果您搜索特定关键字,该关键字甚至可能不会出现在检索到的文档中,但关键字所代表的概念会出现。

我一直使用 Lucence / Solr 进行搜索。并进行快速谷歌搜索,对于 Solr LSA LSI 返回了一些链接。

http://www.ccri.com/blog/2010/4/2/latent-semantic-analysis-in-solr-using-clojure.html

这家伙似乎为它创建了一个插件。

http://github.com/algoriffic/lsa4solr

我可能会在接下来的几周内检查一下,看看情况如何。

【讨论】:

  • 真的很有趣,这就是谷歌在更新熊猫时的想法吗?
  • 不,Panda 更新与标准化网站有关,因此它不会根据自身内容的优点来获取页面,而是尝试着眼于更大的图景。这显然对处理公共贡献材料的平台产生了巨大的不利影响,因为他们放置在网站/网络上的内容通常是完全废话。 LSA/LSI(Latent Sem. Analsysis)已经存在了一段时间,它只是分析特定语料库并确定其在该上下文中的一般含义的实践的总称。 (工作atm太忙了,希望明天再补充)
  • 我喜欢 LSA 方法。我想知道 Zemanta 是否在内部使用它?好的,所以我要查看您的有用链接和信息。确实变得非常令人兴奋!
【解决方案2】:

去看看CalaisZemanta。很酷的东西!

【讨论】:

  • 目前在加莱看过,一点也不差。它返回许多它找到的信息,如“国家”和“货币”。尝试了两个与外汇相关的页面,不幸的是,它没有在“外汇”上找到。
  • Zemanta 确实非常好!感谢您的链接。
【解决方案3】:

就个人而言,我倾向于使用 Brill 解析器之类的东西来识别每个单词的词性,丢弃代词、动词等,并使用它来提取名词列表(可能带有任何限定形容词)建立关键字列表。您可以在 Ian Barber's PHP/IR site 上找到 Brill Parser 的 PHP 实现。

【讨论】:

    猜你喜欢
    • 2010-10-25
    • 2013-01-29
    • 1970-01-01
    • 2010-10-19
    • 1970-01-01
    • 1970-01-01
    • 2017-03-25
    • 1970-01-01
    • 2015-11-29
    相关资源
    最近更新 更多