【问题标题】:How do I download and work with wikipedia data dumps?如何下载和使用维基百科数据转储?
【发布时间】:2020-07-22 13:33:49
【问题描述】:

我想计算特定语言的 wiki 转储中的实体/类别,比如英语。对于初学者来说,官方文档很难找到/遵循。到目前为止我所理解的是,我可以下载一个 XML 转储(我应该从所有可用的不同文件中下载什么),然后解析它(?)以计算实体(文章主题)和类别。

如果有的话,这些信息很难找到。请提供一些关于如何使用它的说明或我可以了解它的资源。

谢谢!

【问题讨论】:

标签: wikipedia information-retrieval wikidata knowledge-graph


【解决方案1】:

转储相当笨拙:即使是小的“真实”转储也是 25G。而且因为 RDF 相当冗长,所以扩展到 >100G。所以我的一般建议是避免转储。

如果您忍不住,https://wdumps.toolforge.org/dumps 允许您使用您想要的语言/属性/实体创建自定义的转储子集。

然后,只需逐行阅读并...对每一行做一些事情

【讨论】:

    【解决方案2】:

    具体说明会根据您的用例有很大不同。您可以从https://dumps.wikimedia.org/enwiki/ 下载转储文件并在本地解析它们,也可以联系 API。

    如果您想解析转储,https://jamesthorne.co.uk/blog/processing-wikipedia-in-a-couple-of-hours/ 是一篇很好的文章,展示了如何做到这一点。

    但是,解析转储并不总是最好的解决方案。例如,如果您想知道最大的三个页面,可以使用https://en.wikipedia.org/wiki/Special:LongPages

    除此之外,您还可以使用https://quarry.wmflabs.org 查询维基百科数据库的实时副本。可以在https://quarry.wmflabs.org/query/38441 找到一个示例。

    【讨论】:

      猜你喜欢
      • 2012-09-07
      • 2013-05-11
      • 1970-01-01
      • 2015-05-18
      • 2022-01-14
      • 1970-01-01
      • 1970-01-01
      • 2012-09-30
      • 1970-01-01
      相关资源
      最近更新 更多