【问题标题】:mediawiki-api - links on page & getting fields on those pagesmediawiki-api - 页面上的链接和获取这些页面上的字段
【发布时间】:2014-06-02 22:13:11
【问题描述】:

如果我有一个 wikimedia 类别,例如“Category:Google_Art_Project_works_by_Vincent_van_Gogh”,是否有 API 可以检索链接到该页面的 URL 列表?

我试过了,但它没有返回任何链接:https://en.wikipedia.org/w/api.php?action=query&titles=Category:Google_Art_Project_works_by_Vincent_van_Gogh&prop=links

(如果没有,我将解析 html 并以这种方式获取它们。)

一旦我链接到所有 URL,是否有 API 可以检索页面上的某些信息? (摘要/艺术家、标题、日期、尺寸、当前位置、许可)

我试过这个,但似乎没有办法返回该信息:https://en.wikipedia.org/w/api.php?action=query&titles=File:Irises-Vincent_van_Gogh.jpg&prop=imageinfo&iiprop=url

【问题讨论】:

    标签: mediawiki wikipedia wikipedia-api mediawiki-api


    【解决方案1】:

    是否有 API 可以检索链接到该页面的 URL 列表?

    我猜您正在寻找Categorymembers API,它将列出所选类别中的页面。

    我试过了,但它没有返回任何链接:https://en.wikipedia.org/w/api.php?action=query&titles=Category:Google_Art_Project_works_by_Vincent_van_Gogh&prop=links

    首先,请注意this is a Wikimedia Commons Category,查询en.wikipedia.org 确实返回了missing 页面。但是,即使您query the right project,您也会注意到the category description 确实不包含任何链接。

    在我链接到所有 URL 后,是否有 API 可以检索页面上的某些信息?

    您可以将 categorymembers 查询用作 generator,然后在每个页面中指定您想要的常用 properties。但是,您似乎感兴趣的元数据无法通过 API 获得,您需要将其从每个图像描述文本中解析出来。

    试试https://commons.wikimedia.org/w/api.php?action=query&generator=categorymembers&gcmtitle=Category%3aGoogle_Art_Project_works_by_Vincent_van_Gogh&prop=links|imageinfo|revisions&iiprop=timestamp|user|url|size|mime&rvprop=ids|content&rvgeneratexml

    【讨论】:

    • 是指加载API给出的“descriptionurl”并解析其HTML以获得我需要的元数据?或者,如果有一种方法可以通过 API 获取图像描述文本——尽管它仍然需要被解析?例如,link 不像讨论 URL 那样包含“画布上的油画”。除非 rvlimit=max 并返回
    • ... stackoverflow 将该链接解释为具有内部斜体,因为该链接本身具有(下划线)-(下划线)。将“Starry_Night”替换为“(下划线)Starry_Night(下划线)”可以恢复到我尝试发布它的方式。
    • 您在评论中发布的链接结果无效。 “讨论网址”是什么意思?我提出的查询确实已经为您提供了每个图像描述页面的源标记,甚至是解析器模型(应该比 HTML 输出更可靠)。请参阅revision api 了解更多信息。
    • 你的意思是this query?所以效果很好
    • “讨论 URL” - 我的意思是 page.imageinfo.ii 属性“descriptionurl”,它给出了显示图像缩略图、下载链接和“元数据”的 wikimedia 页面的 URL。 m 在该图像之后。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-01-15
    • 1970-01-01
    • 1970-01-01
    • 2018-12-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多