【发布时间】:2010-11-10 17:17:26
【问题描述】:
我一直在寻找实现这一点的好方法。我正在开发一个简单的网站爬虫,它将绕过一组特定的网站并将所有 mp3 链接爬入数据库。 我不想下载文件,只需抓取链接、索引它们并能够搜索它们。到目前为止,对于一些网站,我已经成功了,但对于一些网站,他们使用 url 重定向和让爬虫感到困惑的东西..
有什么想法吗? beemp3.com 如何索引所有这些链接?
谢谢
【问题讨论】:
标签: mp3 web-crawler
我一直在寻找实现这一点的好方法。我正在开发一个简单的网站爬虫,它将绕过一组特定的网站并将所有 mp3 链接爬入数据库。 我不想下载文件,只需抓取链接、索引它们并能够搜索它们。到目前为止,对于一些网站,我已经成功了,但对于一些网站,他们使用 url 重定向和让爬虫感到困惑的东西..
有什么想法吗? beemp3.com 如何索引所有这些链接?
谢谢
【问题讨论】:
标签: mp3 web-crawler
您可以对链接进行 http 标头请求并检查它们的 mime 类型。如果是音频/mpeg,您可能正在获取 mp3 链接。
【讨论】:
Here's 类似于您的要求(大学里的朋友一直在使用它)。输入 QUERY_TEXT 后,此搜索会生成以下格式的 Google 查询:
QUERY_TEXT intitle:
"index.of" "parent directory" "size" "last modified" "description"
[snd] (mp4|mp3|avi)
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index)
-gallery
-intitle:"last modified"
-intitle:(intitle|mp3)
【讨论】:
你喜欢什么编程语言?
Python:
有一个非常有前途的爬虫框架,叫做Scrapy(用python编写),它的构建类似于Django Framework。我自己还没有使用它,但我一直在研究爬虫,而 Scrapy 是最好的候选者。它不是开箱即用的 IIRC,需要最少的编码,但它是围绕 DRY 原则设计的,并且非常可定制(有点像 Django 并没有在安装后立即为您提供交钥匙网站)。
URL redirection 有许多不同的方法,您的爬虫需要能够跟踪这些重定向,或者在最坏的情况下能够忽略它们,以免发生故障。
被重定向到的站点也必须在您的站点白名单中。
您能否编辑您的问题并在您的爬虫上添加详细信息?它是从头开始编写的,是不是一些交钥匙解决方案等?
【讨论】: