【发布时间】:2015-10-14 13:27:41
【问题描述】:
我正在用 nodejs 开发一个网络爬虫。我在网站爬虫正文中创建了一个唯一的 url 列表。但是其中一些具有 jpg、mp3、mpeg 之类的扩展名......我想避免抓取那些有扩展名的人。有什么简单的方法吗?
【问题讨论】:
-
这不是我想要的。例如,在网站抓取结果“www.abc.com/xyz.jpg”、“www.abc.com/xyza.mpeg”、“www.abc.com/xyzb.mp3”中存在这些链接。大多数抓取 npms 基本上都会尝试抓取您提供给它们的每个 url。我不想抓取带有扩展名的网址。
-
你试过了吗?
-
我检查了互联网。但是找不到有用的东西。我问了这个问题,也许 stackoverflow 中的任何人都遇到过同样的问题。
-
您可能正在从@MadaraUchiha 建议的路径模块中寻找@987654323@。您可以使用该功能找出网址是否有扩展名,如果没有,您可以继续抓取它。
标签: node.js web-crawler file-extension