用于处理非结构化数据源的 Azure 资源答案

【问题标题】：Azure resource to handle unstructured data sources用于处理非结构化数据源的 Azure 资源
【发布时间】：2019-03-15 12:40:46
【问题描述】：

我们需要从非结构化来源（如信件、rad 报告等）中提取暗数据。请建议使用 azure 资源从常见文档格式中提取数据：DOC、DOCX、PDF、RTF、TXT、HTML 等，然后对提取的数据进行分析。

【问题讨论】：

【解决方案1】：

听起来您只想从这些富文本格式的文档中提取原始文本或图像。如果只做这些，一些解析不同文档的库才是你真正需要的。

这里有一些 Java 或 Python 库可以做到这一点。如果您使用的是我不熟悉的 .NET，您可以在 Google 或 Bing 中搜索以找到这些 .NET 的替代方案。

解析像DOC、DOCX这样的office文档：对于Java，Apache POI是一个很好的从MS office文件中提取数据的库；对于 Python，似乎没有任何包可以做到这一点，除非在 Windows 上的 .NET 中使用 COM 对象，如 Word.Application 或 IronPython (Reading/Writing MS Word files in Python)。
解析PDF文件：有Apache PDFBox，jPDFText用于Java，PyPDF2用于Python。
读取RTF格式文件：Java原生支持通过javax.swing.text.rtf.RTFEditorKit，可以通过搜索获取示例代码；像 #1 一样，对于 Python 来说似乎也没有。
解析 HTML 文件：jsoup 用于 Java，BeautifulSoup 和 HTMLParser 用于 Python 最适合从 HTML 中提取数据。
对于阅读TXT格式的文件，我觉得对于任何语言都很简单。但要从文本内容中提取有价值的信息，Stanford NLP for Java 和 NLTK for Python 非常有用，同时使用认知服务的 Azure Text Analytics API 可以帮助执行一些关键短语提取和语言检测等操作。
用于内容分析的 Apache Tika 工具包也是一个很好的解决方案。甚至您也可以单独部署它并通过 Python 和其他语言调用它的 REST API。
如果要从图片中提取文本，可以使用认知服务的AzureComputer Vision API提取打印文本或手写文本，也可以使用第三方库如Tess4J或其他你在GitHub中搜索的库。李>

以上所有内容几乎都依赖于没有 Azure 资源的第三方开发工具包。但是，您可以将这些文档存储在 Azure 存储中并在 Azure VM 或 Batch 服务上进行处理，甚至可以在 Azure Jupyter Notebook 中分析提取数据或使用 Azure ML 进行更深入的研究。

【讨论】：

是否有任何特定于医疗保健领域的自然语言处理 (NLP) API/工具来从临床记录、医疗报告和调查中提取非结构化数据？
@thiru 我不熟悉医疗保健领域，我不确定您所说的特定于 NLP 的情况如何。我刚刚搜索了 Python 和医疗保健以得到结果 pythonhealthcare.org 和 healthcare.ai。也许你可以自己搜索一下。