【问题标题】:Azure resource to handle unstructured data sources用于处理非结构化数据源的 Azure 资源
【发布时间】:2019-03-15 12:40:46
【问题描述】:

我们需要从非结构化来源(如信件、rad 报告等)中提取暗数据。请建议使用 azure 资源从常见文档格式中提取数据:DOC、DOCX、PDF、RTF、TXT、HTML 等,然后对提取的数据进行分析。

【问题讨论】:

    标签: azure azure-cognitive-services azure-analysis-services azure-analytics


    【解决方案1】:

    听起来您只想从这些富文本格式的文档中提取原始文本或图像。如果只做这些,一些解析不同文档的库才是你真正需要的。

    这里有一些 Java 或 Python 库可以做到这一点。如果您使用的是我不熟悉的 .NET,您可以在 Google 或 Bing 中搜索以找到这些 .NET 的替代方案。

    1. 解析像DOC、DOCX这样的office文档:对于Java,Apache POI是一个很好的从MS office文件中提取数据的库;对于 Python,似乎没有任何包可以做到这一点,除非在 Windows 上的 .NET 中使用 COM 对象,如 Word.ApplicationIronPython (Reading/Writing MS Word files in Python)。
    2. 解析PDF文件:有Apache PDFBoxjPDFText用于Java,PyPDF2用于Python。
    3. 读取RTF格式文件:Java原生支持通过javax.swing.text.rtf.RTFEditorKit,可以通过搜索获取​​示例代码;像 #1 一样,对于 Python 来说似乎也没有。
    4. 解析 HTML 文件:jsoup 用于 Java,BeautifulSoupHTMLParser 用于 Python 最适合从 HTML 中提取数据。
    5. 对于阅读TXT格式的文件,我觉得对于任何语言都很简单。但要从文本内容中提取有价值的信息,Stanford NLP for Java 和 NLTK for Python 非常有用,同时使用认知服务的 Azure Text Analytics API 可以帮助执行一些关键短语提取和语言检测等操作。
    6. 用于内容分析的 Apache Tika 工具包也是一个很好的解决方案。甚至您也可以单独部署它并通过 Python 和其他语言调用它的 REST API。
    7. 如果要从图片中提取文本,可以使用认知服务的AzureComputer Vision API提取打印文本或手写文本,也可以使用第三方库如Tess4J或其他你在GitHub中搜索的库。李>

    以上所有内容几乎都依赖于没有 Azure 资源的第三方开发工具包。但是,您可以将这些文档存储在 Azure 存储中并在 Azure VM 或 Batch 服务上进行处理,甚至可以在 Azure Jupyter Notebook 中分析提取数据或使用 Azure ML 进行更深入的研究。

    【讨论】:

    • 是否有任何特定于医疗保健领域的自然语言处理 (NLP) API/工具来从临床记录、医疗报告和调查中提取非结构化数据?
    • @thiru 我不熟悉医疗保健领域,我不确定您所说的特定于 NLP 的情况如何。我刚刚搜索了 Python 和医疗保健以得到结果 pythonhealthcare.orghealthcare.ai。也许你可以自己搜索一下。
    猜你喜欢
    • 2016-08-22
    • 1970-01-01
    • 2012-01-16
    • 1970-01-01
    • 2021-10-20
    • 2011-03-17
    • 2022-11-10
    • 1970-01-01
    • 2018-03-03
    相关资源
    最近更新 更多