MP3链接爬虫答案

【问题标题】：MP3 link CrawlerMP3链接爬虫
【发布时间】：2010-11-10 17:17:26
【问题描述】：

我一直在寻找实现这一点的好方法。我正在开发一个简单的网站爬虫，它将绕过一组特定的网站并将所有 mp3 链接爬入数据库。我不想下载文件，只需抓取链接、索引它们并能够搜索它们。到目前为止，对于一些网站，我已经成功了，但对于一些网站，他们使用 url 重定向和让爬虫感到困惑的东西..

有什么想法吗？ beemp3.com 如何索引所有这些链接？

谢谢

【问题讨论】：

标签： mp3 web-crawler

【解决方案1】：

您可以对链接进行 http 标头请求并检查它们的 mime 类型。如果是音频/mpeg，您可能正在获取 mp3 链接。

【讨论】：

【解决方案2】：

Here's 类似于您的要求（大学里的朋友一直在使用它）。输入 QUERY_TEXT 后，此搜索会生成以下格式的 Google 查询：

QUERY_TEXT intitle:
"index.of" "parent directory" "size" "last modified" "description"
[snd] (mp4|mp3|avi)
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index)
-gallery
-intitle:"last modified"
-intitle:(intitle|mp3)

【讨论】：

这不会搜索 mp3，而只会搜索包含目录列表（包括 mp3 文件）的页面。
是的，这也不是真正的爬行……我想看看一个脚本是否可以绕过并索引 X 数量的站点仅用于 mp3 文件。不过感谢您的回答:)

【解决方案3】：

你喜欢什么编程语言？

Python：
有一个非常有前途的爬虫框架，叫做Scrapy（用python编写），它的构建类似于Django Framework。我自己还没有使用它，但我一直在研究爬虫，而 Scrapy 是最好的候选者。它不是开箱即用的 IIRC，需要最少的编码，但它是围绕 DRY 原则设计的，并且非常可定制（有点像 Django 并没有在安装后立即为您提供交钥匙网站）。

URL redirection 有许多不同的方法，您的爬虫需要能够跟踪这些重定向，或者在最坏的情况下能够忽略它们，以免发生故障。

被重定向到的站点也必须在您的站点白名单中。

您能否编辑您的问题并在您的爬虫上添加详细信息？它是从头开始编写的，是不是一些交钥匙解决方案等？

【讨论】：