【发布时间】:2020-07-22 13:33:49
【问题描述】:
我想计算特定语言的 wiki 转储中的实体/类别,比如英语。对于初学者来说,官方文档很难找到/遵循。到目前为止我所理解的是,我可以下载一个 XML 转储(我应该从所有可用的不同文件中下载什么),然后解析它(?)以计算实体(文章主题)和类别。
如果有的话,这些信息很难找到。请提供一些关于如何使用它的说明或我可以了解它的资源。
谢谢!
【问题讨论】:
-
您是否尝试搜索转储,下载最近的转储并从 bash 终端使用“less”命令打开它?
-
见:stackoverflow.com/q/30387731/6276743。它有很大帮助。在计算类别和内容方面,您到底想做什么?
-
有些相关:stackoverflow.com/questions/63934708/…。下载 .zim 文件,然后像常规网页抓取一样抓取页面。 (或依赖 dbpedia)
-
还有可能更容易使用的 HDT 转储rdfhdt.org/what-is-hdt
标签: wikipedia information-retrieval wikidata knowledge-graph