【发布时间】:2023-03-04 23:40:02
【问题描述】:
我知道这个问题可能比看起来简单,但是在阅读了大量材料之后,我真的很困惑。
所以,我已经下载了一个维基百科转储(准确地说是这个:enwiktionary-20151002-pages-articles-multistream.xml.bz2 - 它应该包含来自英语维基词典的所有文章)。我想要的是按标题获取特定文章的内容(与在 Wikipedia 本身中搜索它的方式相同)。
注意:我不想要 HTML(由维基百科生成)。我想要“真实”的内容,正如您在“编辑”维基百科中的任何文章时看到的那样。
简而言之:
- 搜索带有标题的文章,例如“书”
- 获取内容
我应该怎么做?
附:我不是在寻找特定于语言的解决方案。我只是需要一些关于如何解决这个问题的想法。
【问题讨论】:
-
不熟悉维基百科转储语法,您可以发布示例或文档链接
-
拥有近 12k 的代表,您应该知道这些问题属于“主要基于意见” 类别
-
我会先解压缩
bz2文件,因为似乎没有办法以压缩格式处理它 -
@PedroLobito 那么,这个“基于意见”如何?我知道可能有 10 种不同的可能方法(几乎所有与编程相关的方法)。我只需要一个。
-
@RiggsFolly 哈哈。我想我已经过了这部分...... :)
标签: php ruby xml mediawiki wikipedia