【问题标题】:Downloading all PDF files from a website从网站下载所有 PDF 文件
【发布时间】:2018-08-23 14:18:44
【问题描述】:

我需要用 c# 制作一个 Windows 桌面应用程序,用于从网站下载所有 PDF。我有网站的链接,但我面临的问题是 PDF 不在网站上的特定文件夹中,而是分散在各处。

我需要帮助找到所有这些链接,以便我可以下载它们或任何其他可以帮助我解决问题的建议。

感谢所有高级帮助。

【问题讨论】:

  • 所以你想写一个蜘蛛?
  • 我相信有很多免费的解决方案可以做到这一点。
  • 是的,我想我需要一个蜘蛛,但我不知道要搜索什么。现在我用谷歌搜索了蜘蛛,我真的需要这样的东西。
  • 虽然这对你的目标来说是一种很长的方式,但如果你真的想了解如何做到这一点,请查看this free online course。至少对于爬虫部分。

标签: c# pdf


【解决方案1】:
  1. 浏览所有页面
  2. 查找所有“*.pdf”网址
  3. 重建它们并简单地下载:)

请更具体一点,您是要从 html 页面还是从整个域中获取所有 PDF?

【讨论】:

  • 我需要查找整个域中的所有 pdf。
  • 你可以用谷歌!谷歌搜索“*.pdf inurl:website”,它应该为您提供所有已编入索引的可访问 PDF 文件的列表。这有帮助吗?
  • 我想过,但我想找到一个更可编程的解决方案
  • 对不起。搜索“-filetype:pdf inurl:domain”。在这里阅读google.com/help/faq_filetypes.html
  • 我会坚持在页面中搜索“*.pdf”以及到文档中其他 HTML/HTM/ASP/ASPX/PHP 页面的链接,然后遍历所有找到的页面和 PDF 链接。当然,重构 PDF URL 可能会导致一些问题
【解决方案2】:

您正在尝试做的事情被称为Web scraping,有一些库可以让您的任务变得轻松,其中一个是IronWebScraper,但它是付费的。

一个广泛的 NuGet 包列表可用here 可用于网络抓取目的。

【讨论】:

    猜你喜欢
    • 2019-07-04
    • 2020-10-10
    • 1970-01-01
    • 2014-03-14
    • 1970-01-01
    • 1970-01-01
    • 2018-01-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多