【问题标题】:MP3 link CrawlerMP3链接爬虫
【发布时间】:2010-11-10 17:17:26
【问题描述】:

我一直在寻找实现这一点的好方法。我正在开发一个简单的网站爬虫,它将绕过一组特定的网站并将所有 mp3 链接爬入数据库。 我不想下载文件,只需抓取链接、索引它们并能够搜索它们。到目前为止,对于一些网站,我已经成功了,但对于一些网站,他们使用 url 重定向和让爬虫感到困惑的东西..

有什么想法吗? beemp3.com 如何索引所有这些链接?

谢谢

【问题讨论】:

    标签: mp3 web-crawler


    【解决方案1】:

    您可以对链接进行 http 标头请求并检查它们的 mime 类型。如果是音频/mpeg,您可能正在获取 mp3 链接。

    【讨论】:

      【解决方案2】:

      Here's 类似于您的要求(大学里的朋友一直在使用它)。输入 QUERY_TEXT 后,此搜索会生成以下格式的 Google 查询:

      QUERY_TEXT intitle:
      "index.of" "parent directory" "size" "last modified" "description"
      [snd] (mp4|mp3|avi)
      -inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index)
      -gallery
      -intitle:"last modified"
      -intitle:(intitle|mp3)
      

      【讨论】:

      • 这不会搜索 mp3,而只会搜索包含目录列表(包括 mp3 文件)的页面。
      • 是的,这也不是真正的爬行……我想看看一个脚本是否可以绕过并索引 X 数量的站点仅用于 mp3 文件。不过感谢您的回答:)
      【解决方案3】:

      你喜欢什么编程语言?

      Python:
      有一个非常有前途的爬虫框架,叫做Scrapy(用python编写),它的构建类似于Django Framework。我自己还没有使用它,但我一直在研究爬虫,而 Scrapy 是最好的候选者。它不是开箱即用的 IIRC,需要最少的编码,但它是围绕 DRY 原则设计的,并且非常可定制(有点像 Django 并没有在安装后立即为您提供交钥匙网站)。

      URL redirection 有许多不同的方法,您的爬虫需要能够跟踪这些重定向,或者在最坏的情况下能够忽略它们,以免发生故障。

      被重定向的站点也必须在您的站点白名单中。

      您能否编辑您的问题并在您的爬虫上添加详细信息?它是从头开始编写的,是不是一些交钥匙解决方案等?

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2016-05-26
        • 2010-12-03
        • 1970-01-01
        • 2013-11-30
        • 2011-06-26
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多