自制网络爬虫的问题

【问题标题】：Problems with home-brew web crawler自制网络爬虫的问题
【发布时间】：2009-01-02 09:00:04
【问题描述】：

我已经用 C++ 构建了一个网络爬虫。我正在使用一个名为 URLdownloadToFile() 的 API。

还有其他 API 可以使用吗？
API URLdownloadToFile() 对某些 URL 运行良好，而对某些其他 URL 运行不佳？请提出一些我可以克服这个问题的方法？

谢谢， Dnyaneshwari C.

【问题讨论】：

我们需要更多详细信息 - 哪些 URL 无法正常工作，您看到这些 URL 有什么问题？
如果没有（a）您提供更多信息，或者（b）读懂您的想法以提取所述信息，那么任何人都绝对无法帮助您。请更具体。

标签： c++ web-applications

【解决方案1】：

您可能想研究一下 libcurl，它应该允许您使用各种协议提取内容。这也应该支持代理等，这可能会给您带来特定网址的问题。也可以看看; http://curl.haxx.se/

【讨论】：

【解决方案2】：

您可能想查看WinINet，它是一个简单的 C API，用于与 HTTP 网络堆栈的高级接口。另一个选项是WinHttp，它有点复杂，需要您处理 COM。

【讨论】：

【解决方案3】：

除非有特殊原因坚持使用 c++，否则最好切换到 Python 并使用 BeautifulSoup。我用过 curl，它很不错，但是我现在所有的 web 东西都是用 Python 完成的

【讨论】：

猜你喜欢

iOS ARC 为 iOS4.3 启用了自定义框架问题 2025-11-21
从 SublimeText 运行 AppleScript 的问题 2025-11-21
CUDA Vision Studio 内核问题 2025-11-21
OpenGL 3 渲染问题 Linux (Ubuntu Mate) 2025-11-21
使用 Eclipse 测试 PhoneGap 应用程序时不断收到“发生网络错误” 2025-11-21
如何检查是否从 iPhone 上的网页安装了应用程序 1970-01-01
十进制模块中的有效数字 2025-11-21
[复制] 2025-11-21
Drupal Superfish 菜单 - 控制每个项目的间距 2025-11-21
从 JSON Schema 自动生成 JavaScript 2025-11-21

相关资源

asp.net 懒人工作通协同网络办公自动化管理系统 v6.35 Access下载 2023-01-05
回到网页顶部的JS代码下载 2022-12-26
智睿网络投票评选管理系统 v10.8.8下载 2023-06-29
Axure RP8 实战手册网站和APP原型制作案例精粹(小楼一夜听春语) 试读版 13.7M下载 2023-01-08
HTML5 Canvas实现的彩色肥皂泡浮起动画效果源码下载 2023-02-19

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式