【问题标题】:Accessing titles of Biographies in Wikipedia访问维基百科中的传记标题
【发布时间】:2012-04-03 04:09:52
【问题描述】:

我已下载 Wikipedia 最新转储并将其解析为 MySQL 数据库。现在我有只包含标题和内容的数据库表。我的要求是从这个表中提取所有传记内容。所以我想要一个包含所有传记标题的转储文件。 提前致谢

【问题讨论】:

  • 有一个数据库表只包含标题和与该标题相关的内容。这是我从解析 enwiki-articles-latest.xml 中得到的。但我的要求是只获取与类别传记标题相关的内容。如果我得到维基百科中所有传记的列表,我可以从我的数据库表中获取内容。

标签: mediawiki wikipedia


【解决方案1】:

如果你想获取某个分类的所有文章及其所有子分类,你需要使用the categorylinks table并递归地遍历它以获取子分类中的文章。

从您的问题中不清楚您到底想要什么。如果您想要关于传记的文章,请查看Category:Biography。如果您想要传记的文章,请查看Category:People 的子类别。

【讨论】:

  • 我需要关于人物的文章。我能得到维基百科中与人物相关的所有文章主题吗。就像一个 mysql 转储
  • 不,您需要自己遍历类别树。
猜你喜欢
  • 2011-04-16
  • 2011-08-31
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多