【发布时间】:2019-03-15 12:40:46
【问题描述】:
我们需要从非结构化来源(如信件、rad 报告等)中提取暗数据。请建议使用 azure 资源从常见文档格式中提取数据:DOC、DOCX、PDF、RTF、TXT、HTML 等,然后对提取的数据进行分析。
【问题讨论】:
标签: azure azure-cognitive-services azure-analysis-services azure-analytics
我们需要从非结构化来源(如信件、rad 报告等)中提取暗数据。请建议使用 azure 资源从常见文档格式中提取数据:DOC、DOCX、PDF、RTF、TXT、HTML 等,然后对提取的数据进行分析。
【问题讨论】:
标签: azure azure-cognitive-services azure-analysis-services azure-analytics
听起来您只想从这些富文本格式的文档中提取原始文本或图像。如果只做这些,一些解析不同文档的库才是你真正需要的。
这里有一些 Java 或 Python 库可以做到这一点。如果您使用的是我不熟悉的 .NET,您可以在 Google 或 Bing 中搜索以找到这些 .NET 的替代方案。
Apache POI是一个很好的从MS office文件中提取数据的库;对于 Python,似乎没有任何包可以做到这一点,除非在 Windows 上的 .NET 中使用 COM 对象,如 Word.Application 或 IronPython (Reading/Writing MS Word files in Python)。Apache PDFBox,jPDFText用于Java,PyPDF2用于Python。javax.swing.text.rtf.RTFEditorKit,可以通过搜索获取示例代码;像 #1 一样,对于 Python 来说似乎也没有。jsoup 用于 Java,BeautifulSoup 和 HTMLParser 用于 Python 最适合从 HTML 中提取数据。Stanford NLP for Java 和 NLTK for Python 非常有用,同时使用认知服务的 Azure Text Analytics API 可以帮助执行一些关键短语提取和语言检测等操作。Tess4J或其他你在GitHub中搜索的库。李>
以上所有内容几乎都依赖于没有 Azure 资源的第三方开发工具包。但是,您可以将这些文档存储在 Azure 存储中并在 Azure VM 或 Batch 服务上进行处理,甚至可以在 Azure Jupyter Notebook 中分析提取数据或使用 Azure ML 进行更深入的研究。
【讨论】: