【发布时间】:2016-06-06 14:39:30
【问题描述】:
我正在开发基于本体的网页搜索引擎。我们有很多由不同应用程序托管的网页。
在本体中捕获所有可搜索的网页以及它包含的信息、信息的维度、URL、参数等。
我写了一个像谷歌这样的页面,用户可以在其中编写搜索文本,我想显示所有与他的查询密切匹配的有意义的网页链接。
我的问题更多关于技术堆栈。
索引和搜索本体的最佳方法是什么? - 到目前为止,我正在考虑在 Solr 中做这件事,但不确定如何在 Solr 中索引不同的三元组以及我的设计方法应该是什么。
理解用户搜索文本并翻译成可以在 Ontology 上执行的查询。 - 可能是 NLP?
请指教,如果能详细解释解决方案就太好了。
【问题讨论】:
-
提供更多信息,例如数据来源(即,您是从特定来源获取数据还是想沿着网页爬行?
-
Sasikumar,所有单独的可搜索网页都在本体中捕获,其元数据如网页标题、名称、url、参数等。我想在本体上进行搜索并显示网页链接从本体论。我不想抓取所有网页。如果您需要更多详细信息,请告诉我。
-
是的,请给我更多信息。因为您需要在搜索之前将数据保存到 SOLR 服务器中吗?甚至谷歌抓取所有数据,然后从他们抓取的数据中,被用于谷歌搜索。对您来说还有一个问题是,您想在 SOLR 查询结构中使用人工智能吗? @user3222372
标签: solr nlp stanford-nlp ontology protege