【发布时间】:2023-04-02 09:10:01
【问题描述】:
我想用 C# 创建一个爬虫。问题是一些网站在他们的 robots.txt 文件中禁用了黑名单爬虫,使用:
User-agent: *
Disallow: /
有没有办法让我伪造我的请求,以证明我是 Googlebot?
【问题讨论】:
-
臭了好几英里。这是干什么用的?
标签: c# .net web-crawler
我想用 C# 创建一个爬虫。问题是一些网站在他们的 robots.txt 文件中禁用了黑名单爬虫,使用:
User-agent: *
Disallow: /
有没有办法让我伪造我的请求,以证明我是 Googlebot?
【问题讨论】:
标签: c# .net web-crawler
HttpWebRequest 有 .UserAgent,但是 - 我只想说:不要。
当然,你关于 robots.txt 的观点没有实际意义;那是你跟随。如果您编写了一个行为不端的工具,而忽略了robots.txt不管您声称自己是什么用户代理,那么您应该会很快被列入黑名单。
特别是,试图冒充任何主要玩家都是非常可疑的。坦率地说,我希望大多数主要网站也会检查传入的 IP 范围。
【讨论】:
是的,HttpWebRequest 具有用户代理的属性。您可以将其设置为任何值。
【讨论】: