【问题标题】:How to scrape contact data from many websites? [closed]如何从许多网站上抓取联系人数据? [关闭]
【发布时间】:2013-11-27 06:29:02
【问题描述】:

我有数千个 URL 的列表。我想知道如何爬取联系页面并从“联系我们”页面的 URL 中抓取联系数据?例如地址、电话和电子邮件。

任何想法都会有所帮助。

我正在考虑使用正则表达式;它们适用于电话和电子邮件,但无法抓取地址。

【问题讨论】:

标签: c# web-scraping web-crawler


【解决方案1】:

简短的回答是没有万能的方法来做到这一点。它涉及一些基于您要抓取的页面的人类智能。

(1) 收集信息 (HTML)

由于您已经将范围缩小到 URL 列表。实现它的正确方法是使用您必须首先收集 HTML 页面的任何工具。因此,您将所有 HTML 文件都放在本地,因此每次调整代码“正则表达式等”时。您无需再花几个小时访问他们的服务器来收集数据。 注意,这取决于您的目的,在存储 HTML 文件之前阅读服务条款

(2) 解析

现在您已将信息本地存储在笔记本电脑/服务器中。现在只是如何从 HTML 中解析出来的问题。我不太了解 C# 以及您的页面列表的外观。如果您的联系页面实际上来自同一个站点......比如说社交媒体网页将遵循相同的 HTML 设计(这是最好的情况),您可以使用一些 HTML 解析器(我在 python 中使用 beautifulsoup)轻松定位标签并获取该标签内的内容。然后,您只需将该函数应用于您存储的所有 HTML,即可完成工作。

如果 URL 都来自不同的站点,那么你只需要调整你的函数和人工识别你的解析结果是否足够好,然后继续尝试......

【讨论】:

    猜你喜欢
    • 2022-01-23
    • 2012-02-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多