【问题标题】:A database of questions with unambiguous numeric answers具有明确数字答案的问题数据库
【发布时间】:2011-02-09 13:05:39
【问题描述】:

我(和合作黑客)正在构建一种受这篇博文启发的琐事游戏: http://messymatters.com/calibration。 这个想法是给出置信区间并学习如何校准(当你“90% 确定”时,你应该在 90% 的时间里是对的)。

因此,理想情况下,我们正在寻找具有明确数字答案的数千个问题。 此外,它们不应该太无聊。 那里有很多随机统计数据——例如,不同国家的封闭水域——这会让游戏变得麻木。 像经典电影的上映日期这样的事情(对大多数人来说)更有趣。

我们发现的其他有趣的数据包括奥运会纪录、不同职业的收入中位数、著名发明的日期和名人年龄。 顺便说一句,刮掉上面的东西是我问这个问题的原因: Scrape HTML tables from a given URL into CSV

因此,如果您知道其他有趣的数字事实来源(以可解析的形式),我渴望获得指向它们的指针。 谢谢!

【问题讨论】:

  • 当我看到这个先例时,我认为这与编程足够相关:stackoverflow.com/questions/2664629/… 我认为 StackOverflow 值得,因为答案可能对其他开发人员有用。
  • 我很好奇您如何看待这与 Wolfram Apha 之间的差异?
  • 我认为 Wolfram Alpha 可能是此类问题的一个很好的来源,尽管它们很难为他们的 API 抓取和充电。不过,如果您对可以从 Wolfram Alpha 收集到的问题类别有任何建议,请务必将其添加为答案。

标签: parsing language-agnostic


【解决方案1】:

WolframAlpha 可能是查找各种类别的数字数据的好地方。

【讨论】:

    【解决方案2】:

    板球统计数据。受到全世界数百万人的欢迎,所有这些都可以从http://www.cricinfo.com 的令人难以置信的数据库中访问。强烈推荐。

    还有 CIA 概况:https://www.cia.gov/library/publications/the-world-factbook/

    有关于国家等的各种有用的数字事实。

    【讨论】:

      【解决方案3】:

      世界事实(犯罪、经济、食品等...)

      http://www.nationmaster.com/facts.php

      你知道吗? (事实 | 速览 | 动物 | 历史 | 列表 | 新闻 | 恐惧症)

      http://didyouknow.org/

      【讨论】:

        【解决方案4】:

        视频游戏类

        vgchartz.com 有各种视频游戏标题和硬件性能图表。

        示例查询:

        有足够的数据来回答以下问题:

        • 在 Y 年/销售的第一周售出了多少硬件/标题 X?
        • Title X 的销量(在各自的前 N ​​周销售中)比 Title Y 高出多少/多少?

        流行音乐类

        billboard.com 就是你所需要的。

        维基百科链接

        除了销售数据,您还可以询问有关图表位置的查询,例如:

        • 在图表 Z 的 Y 类中,歌曲 X 放在哪里/艺人 X 有多少歌曲?

        充分利用您的数据

        您可以从大多数列表中创建明确的数字 Q/A。举个例子,像TIME.com All Time 100 Novels这样的列表

        可以提出的一些一般性问题是:

        • 在给定的时间段内写入了多少?
          • 十年,年份,乔治布什总统任期,9/11 之前,等等。
        • Title X 和 Title Y 之间的排名差距是多少?
          • 像这样的成对查询确实可以充分利用您的数据!

        您可以对任何给定的前 100 名列表执行此操作:


        历史类别

        historyorb.com 只是一个例子。 URL 和 HTML 非常易于抓取。

        有很多类似的网站,例如brainyhistory.com.

        您还可以使用这些日期与其他数据“交叉”(例如上面的前 100 部小说示例)。


        电影类别

        The Internet Movie Database当然是……网络电影数据库!

        【讨论】:

        • 哇,这些想法很棒!谢谢!
        【解决方案5】:

        体育琐事非常适合这一点,因为您可以提出大量问题,1) 有明确的数字答案和 2) 一些人真正关心的问题。我知道downloadable database for baseball statistics is out there,如果您在其他主要(和不那么主要)运动中也找不到类似的数据库,我会感到惊讶。你仍然需要挑选,因为即使对于铁杆体育迷来说,细节也太多了(“1923 年 [无名投手] 编制了多少次三振出局?”),但它应该是一个丰富的环境去我的。

        【讨论】:

          【解决方案6】:

          好吧,如果您想提出“X 国有多少人口?”、“欧洲最高的山峰有多高?”之类的问题,那么这个可能是您的选择:

          http://www.dbis.informatik.uni-goettingen.de/Mondial/

          MONDIAL 数据库已编译 来自地理 Web 数据源 下面列出:

          • CIA 世界概况,
          • Johan van 收集的 Global Statistics 的前身 der Heijden。
          • 坐标的其他文本来源,
          • Kümmerly & Frey、Rand McNally 和 Westermann 的国际地图集,
          • 以及卡尔斯鲁厄 TERRA 数据库的一些地理数据。

          【讨论】:

            【解决方案7】:

            你需要的所有统计数据...


            网上有几个“开放”的数据库。

            http://unstats.un.org/unsd/databases.htm

            只需从他们那里提取数据,就可以了!

            注意:您可能希望在提取每个问题后对其进行缓存,以供将来重复使用(不同的用户)。

            祝你好运!!

            CVS @ 2600 赫兹

            【讨论】:

            • 好东西;非常感谢!如果有您认为特别有趣的特定统计数据,请告诉我。到目前为止,我得到了一些信息,例如婴儿死亡率、失业率和毗邻国家的数量。
            【解决方案8】:

            你可以试试敲前门:

            Pioneer Grants:Pioneer Grants 适用于使用 Wolfram|Alpha API 构建创新应用程序的初创公司和其他开发人员。

            (http://products.wolframalpha.com/api/pricing.html)

            【讨论】:

            • 奇怪的是,我发现一个 stackoverflower 同伴已经赢得了 Alpha Grant。 // “编写了一个 Google Wave 机器人,该机器人将 Wolfram Alpha 查询抓取并检索到活动 wave 中。因努力而获得 Pioneer Grant。目前正在修复故障并听取反馈!” // 马克 Fayngersh
            【解决方案9】:

            Box Office Mojo 是一个伟大的电影票房收入。我认为人们会觉得这很有趣。

            【讨论】:

              【解决方案10】:

              这个游戏中的问题非常符合我们的想法:

              http://en.wikipedia.org/wiki/Wits_and_Wagers

              我想知道 Wits & Wagers 的创作者是如何收集这些问题的...

              【讨论】:

                【解决方案11】:

                维基百科有许多重复出现的数字(通常在侧栏中),例如,许多(如果不是大多数)电视节目页面都有指向剧集列表的链接,并且该链接具有剧集计数。

                【讨论】:

                  猜你喜欢
                  • 1970-01-01
                  • 1970-01-01
                  • 2021-05-05
                  • 1970-01-01
                  • 2023-03-09
                  • 2023-03-14
                  • 2020-11-15
                  • 1970-01-01
                  • 2015-11-02
                  相关资源
                  最近更新 更多