从网站下载所有 PDF 文件

【问题标题】：Downloading all PDF files from a website从网站下载所有 PDF 文件
【发布时间】：2018-08-23 14:18:44
【问题描述】：

我需要用 c# 制作一个 Windows 桌面应用程序，用于从网站下载所有 PDF。我有网站的链接，但我面临的问题是 PDF 不在网站上的特定文件夹中，而是分散在各处。

我需要帮助找到所有这些链接，以便我可以下载它们或任何其他可以帮助我解决问题的建议。

感谢所有高级帮助。

【问题讨论】：

所以你想写一个蜘蛛？
我相信有很多免费的解决方案可以做到这一点。
是的，我想我需要一个蜘蛛，但我不知道要搜索什么。现在我用谷歌搜索了蜘蛛，我真的需要这样的东西。
虽然这对你的目标来说是一种很长的方式，但如果你真的想了解如何做到这一点，请查看this free online course。至少对于爬虫部分。

标签： c# pdf

【解决方案1】：

浏览所有页面
查找所有“*.pdf”网址
重建它们并简单地下载:)

请更具体一点，您是要从 html 页面还是从整个域中获取所有 PDF？

【讨论】：

我需要查找整个域中的所有 pdf。
你可以用谷歌！谷歌搜索“*.pdf inurl:website”，它应该为您提供所有已编入索引的可访问 PDF 文件的列表。这有帮助吗？
我想过，但我想找到一个更可编程的解决方案
对不起。搜索“-filetype:pdf inurl:domain”。在这里阅读google.com/help/faq_filetypes.html
我会坚持在页面中搜索“*.pdf”以及到文档中其他 HTML/HTM/ASP/ASPX/PHP 页面的链接，然后遍历所有找到的页面和 PDF 链接。当然，重构 PDF URL 可能会导致一些问题

【解决方案2】：

您正在尝试做的事情被称为Web scraping，有一些库可以让您的任务变得轻松，其中一个是IronWebScraper，但它是付费的。

一个广泛的 NuGet 包列表可用here 可用于网络抓取目的。

【讨论】：

猜你喜欢

2019-07-04
2020-10-10
1970-01-01
2014-03-14
1970-01-01
1970-01-01
2018-01-14
1970-01-01
1970-01-01

相关资源

下载 2023-02-06
下载 2021-07-02
下载 2023-03-18
下载 2022-12-12

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode