【问题标题】:Twitter (Social networking) DatasetTwitter(社交网络)数据集
【发布时间】:2011-03-21 10:15:39
【问题描述】:

我正在为我的项目寻找 twitter 或其他社交网站数据集。我目前有 CAW 2.0 推特数据集,但它只包含用户的推文。我想要一个显示朋友、关注者等数量的数据。

它不一定是 twitter,但我更喜欢 twitter 或 facebook。我已经尝试过 infochimps,但显然该文件无法再为 twitter 下载。

谁能给我一个很好的网站来找到这种数据集。我要将数据集提供给 hadoop。

【问题讨论】:

    标签: facebook hadoop twitter dataset


    【解决方案1】:

    从 facebook 中提取了 1 亿个页面: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

    我不知道它们包含什么,但你可以看看,在种子网站上似乎很容易找到。

    您也可以使用 facebook API,但如果您想要一个足够大的数据集,则必须向 facebook 询问访问权限。 它包含指向朋友、喜欢、群组等的链接...

    【讨论】:

    • 顺便说一句,还有一个 Twitter API。
    • 奇怪的是我没有赢得赏金
    【解决方案2】:

    尝试以下三个数据集:

    包含大约 9700 万条推文:

    http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

    ed note:之前链接的数据集不再可用,因为 Twitter 要求将其删除。

    包含 4700 万用户的用户图:

    http://an.kaist.ac.kr/traces/WWW2010.html

    以下数据集包含网络和推文,但是数据是通过雪球采样或其他方式收集的,因此朋友网络不统一。它有大约 1000 万条推文,您可以通过邮件向研究人员发送更多数据。

    http://www.public.asu.edu/~mdechoud/datasets.html

    尽管查看分发数据的许可。

    希望这会有所帮助, 你能告诉我这个数据集正在计划什么样的工作吗? 我很少有 hadoop / pig 脚本可用于数据集

    【讨论】:

    • @Akshay Bhat:截至今天,他们似乎已经删除了数据集。您是否碰巧知道任何其他可用的数据集?谢谢!
    【解决方案3】:

    UCIrvine 的研究人员收集的 Facebook 社交图谱、应用程序安装和 Last.fm 用户、事件、群组:http://odysseas.calit2.uci.edu/research/

    【讨论】:

      【解决方案4】:

      我认为 twitter 数据收集的最佳工具是 http://www.followthehashtag.com ,它可以获取历史或未来数据,并具有高级数据导出功能

      我们每周添加一次大型数据集(约 200,000 条推文)的部分

      http://followthehashtag.com/datasets/

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2011-07-01
        • 2012-04-19
        • 2011-04-10
        • 2012-07-28
        • 2019-10-06
        • 2011-05-09
        • 1970-01-01
        相关资源
        最近更新 更多