【问题标题】:Problems with home-brew web crawler自制网络爬虫的问题
【发布时间】:2009-01-02 09:00:04
【问题描述】:

我已经用 C++ 构建了一个网络爬虫。我正在使用一个名为 URLdownloadToFile() 的 API。

  1. 还有其他 API 可以使用吗?
  2. API URLdownloadToFile() 对某些 URL 运行良好,而对某些其他 URL 运行不佳?请提出一些我可以克服这个问题的方法?

谢谢, Dnyaneshwari C.

【问题讨论】:

  • 我们需要更多详细信息 - 哪些 URL 无法正常工作,您看到这些 URL 有什么问题?
  • 如果没有(a)您提供更多信息,或者(b)读懂您的想法以提取所述信息,那么任何人都绝对无法帮助您。请更具体。

标签: c++ web-applications


【解决方案1】:

您可能想研究一下 libcurl,它应该允许您使用各种协议提取内容。这也应该支持代理等,这可能会给您带来特定网址的问题。也可以看看; http://curl.haxx.se/

【讨论】:

    【解决方案2】:

    您可能想查看WinINet,它是一个简单的 C API,用于与 HTTP 网络堆栈的高级接口。另一个选项是WinHttp,它有点复杂,需要您处理 COM。

    【讨论】:

      【解决方案3】:

      除非有特殊原因坚持使用 c++,否则最好切换到 Python 并使用 BeautifulSoup。我用过 curl,它很不错,但是我现在所有的 web 东西都是用 Python 完成的

      【讨论】:

        最近更新 更多