【发布时间】:2013-04-05 21:50:19
【问题描述】:
我正在尝试查找维基百科上所有图像的完整列表,然后我可以将其过滤到公共领域的图像。我已经从这里下载了 SQL 转储:
http://dumps.wikimedia.org/enwiki/latest/
并研究了 DB 架构:
我想我明白了,但是当我从维基百科页面中选择一个示例图像时,我在转储中的任何地方都找不到它。例如:
http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG
我已经对转储“image”、“imagelinks”和“page”进行了 grep 查找,以寻找“Carrizo_2a.JPG”,但没有找到。
这些转储不完整吗?我误解了结构吗?有一个更好的方法吗?
另外,向前一步:在我过滤掉我的列表并且我想下载大量图像(数千张)之后,我看到一些人提到我需要从网站的镜像中执行此操作以防止超载维基百科/维基媒体。如果对此也有任何指导,那将很有帮助。
【问题讨论】:
-
这里是第二张图片的示例,它表现出相同的症状。我已经尝试了一堆,但还没有找到一个在垃圾堆中的。 en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg
标签: wikipedia wikipedia-api mediawiki-api