如何从许多网站上抓取联系人数据？ [关闭]答案

【问题标题】：How to scrape contact data from many websites? [closed]如何从许多网站上抓取联系人数据？ [关闭]
【发布时间】：2013-11-27 06:29:02
【问题描述】：

我有数千个 URL 的列表。我想知道如何爬取联系页面并从“联系我们”页面的 URL 中抓取联系数据？例如地址、电话和电子邮件。

任何想法都会有所帮助。

我正在考虑使用正则表达式；它们适用于电话和电子邮件，但无法抓取地址。

【问题讨论】：

定位地址是命名实体识别任务。 NER是NLP中的一个领域，自然语言处理。您可以尝试使用例如具有 .Net 实现的斯坦福命名实体识别器：sergey-tihon.github.io/Stanford.NLP.NET/StanfordNER.html

标签： c# web-scraping web-crawler

【解决方案1】：

简短的回答是没有万能的方法来做到这一点。它涉及一些基于您要抓取的页面的人类智能。

(1) 收集信息 (HTML)

由于您已经将范围缩小到 URL 列表。实现它的正确方法是使用您必须首先收集 HTML 页面的任何工具。因此，您将所有 HTML 文件都放在本地，因此每次调整代码“正则表达式等”时。您无需再花几个小时访问他们的服务器来收集数据。 注意，这取决于您的目的，在存储 HTML 文件之前阅读服务条款

(2) 解析

现在您已将信息本地存储在笔记本电脑/服务器中。现在只是如何从 HTML 中解析出来的问题。我不太了解 C# 以及您的页面列表的外观。如果您的联系页面实际上来自同一个站点......比如说社交媒体网页将遵循相同的 HTML 设计（这是最好的情况），您可以使用一些 HTML 解析器（我在 python 中使用 beautifulsoup）轻松定位标签并获取该标签内的内容。然后，您只需将该函数应用于您存储的所有 HTML，即可完成工作。

如果 URL 都来自不同的站点，那么你只需要调整你的函数和人工识别你的解析结果是否足够好，然后继续尝试......

【讨论】：