【问题标题】:how to crawl youtube video links with a keyword search如何使用关键字搜索抓取 youtube 视频链接
【发布时间】:2013-01-03 17:38:42
【问题描述】:

我正在做一些研究 我想抓取 youtube 视频链接(然后获取视频 ID)

例如,如果我在 youtube 搜索栏输入关键字“obama” 然后 youtube.com 将返回结果页面

http://www.youtube.com/results?search_query=htc&page=2 将页面向下滚动到底部 我们可以看到页码 1 2 3 4 5 6 7 点击页码从 2 到 3 到 4 到 5.... 那么我们可以达到最大页码:50

所以我想下载从 1 到 50 的所有页面 有一个url技巧,比如

http://www.youtube.com/results?search_query=obama&page=5

但是,如果我使用 wget 下载每个页面,有时会阻止下载 或者有时候,当页码很大时,返回的页面不是异常页面。

所以正确的方法是手动单击页码按钮并使用网络浏览器下载每个页面,是否可以自动化手动程序? 我在互联网上搜索,一些人提到了 chrome javascript 扩展, 无论如何,有没有办法编写一些自动化脚本来模仿手动操作?谢谢!

【问题讨论】:

    标签: javascript google-chrome web-crawler


    【解决方案1】:

    为什么不直接使用他们的 API?爬行通常是不好的做法。

    https://developers.google.com/youtube/2.0/developers_guide_protocol

    https://developers.google.com/youtube/2.0/developers_guide_protocol_api_query_parameters

    https://gdata.youtube.com/feeds/api/videos?
        q=football+-soccer
        &orderby=published
        &start-index=11
        &max-results=10
        &v=2
    

    【讨论】:

    • 这些api无法获取与搜索关键字相关的所有视频id
    • 如果 API 有一些限制,可能是有原因的。能举个例子吗?
    • 啊,好像还可以,不过我好想收集cmet,比如youtube.com/all_comments?v=FL7yD-0pqZg&page=6,所以还是希望用自动化脚本来模拟人工操作
    • 谢谢,不过这只提供有限数量的cmets,我想收集很多cmets
    猜你喜欢
    • 1970-01-01
    • 2016-07-13
    • 1970-01-01
    • 2017-04-28
    • 1970-01-01
    • 2017-07-04
    • 2011-09-27
    • 2014-06-07
    • 2012-09-28
    相关资源
    最近更新 更多