【问题标题】:Is it possible to fake Useragent in C#?是否可以在 C# 中伪造 Useragent?
【发布时间】:2023-04-02 09:10:01
【问题描述】:

我想用 C# 创建一个爬虫。问题是一些网站在他们的 robots.txt 文件中禁用了黑名单爬虫,使用:

User-agent: *
Disallow: /

有没有办法让我伪造我的请求,以证明我是 Googlebot?

【问题讨论】:

  • 臭了好几英里。这是干什么用的?

标签: c# .net web-crawler


【解决方案1】:

HttpWebRequest.UserAgent,但是 - 我只想说:不要。

当然,你关于 robots.txt 的观点没有实际意义;那是跟随。如果您编写了一个行为不端的工具,而忽略了robots.txt不管您声称自己是什么用户代理,那么您应该会很快被列入黑名单。

特别是,试图冒充任何主要玩家都是非常可疑的。坦率地说,我希望大多数主要网站也会检查传入的 IP 范围。

【讨论】:

  • 我可以创建一个使用网络浏览器获取我想要的信息的爬虫。我需要该网站的数据来进行数据挖掘项目。无意滥用任何东西;)
  • @AlirezaNoori 我的观点是:如果一个网站足够关心向不同的代理发布不同的 robots.txt 规则,那么他们可能不会相信你是谷歌
  • 好吧,事实上,他们只是想让我拥有一个用户代理。我将我自己的程序名称设置为该属性并且它有效。无需将其设置为 Googlebot。双赢:D
【解决方案2】:

是的,HttpWebRequest 具有用户代理的属性。您可以将其设置为任何值。

【讨论】:

    猜你喜欢
    • 2018-08-18
    • 2021-06-04
    • 2012-11-03
    • 1970-01-01
    • 1970-01-01
    • 2011-12-15
    • 1970-01-01
    • 1970-01-01
    • 2022-01-08
    相关资源
    最近更新 更多