从txt文件中提取数据答案

【问题标题】：Extracting data from txt files从txt文件中提取数据
【发布时间】：2014-04-21 17:24:29
【问题描述】：

好的，我使用来自 Git Bash 的 git。在我运行它之后，我的硬盘上有txt 证券交易委员会数据库的txt 文件，这是EDGAR 在这个format 中。我使用的是 Win 7。txt 文件里面有 HTML 标签。

我想知道，自从九十年代初以来，SEC 机构的文本文件都是这种严格的格式，如果有办法提取某个项目，比如说

<us-gaap:IncomeTaxExpenseBenefit contextRef="eol_PE9523----1310-K0013_STD_365_20131231_0" 

decimals="-3" id="id_3914012_7F3BEF88-8CD1-49E7-8A78-91A091178D1B_1_13" 

unitRef="iso4217_USD">40315000</us-gaap:IncomeTaxExpenseBenefit>

由于格式严格，是否准确地使用脚本或 git 存储库？例如，有人如何从 txt 文件中提取孔表？库、gits、脚本只要稍加修改和修改，我就可以开始了。

这些 git 中的任何一个都可以进来做这样的工作吗？我阅读了说明（只要有说明），但我不懂很多东西。

【问题讨论】：

我想你可以在这里找到类似的问题：stackoverflow.com/questions/13504278/parsing-edgar-filings
我已经看到了这个问题，提供的解决方案是使用某种库来使用它来提取我的策略的数据方式我已经设法在我的硬盘上下载了 txt 文件，现在我需要仅提取一些表。我相信这是可能的，因为格式是刚性的
@ExoticBirdsMerchant 这当然是可能的，但就目前而言，这个问题太宽泛了。有很多用于各种语言的 HTML 解析器。选择一个并陷入文档中。
<us-gaap:...> 在我看来不像是有效的 HTML。更有可能是 XML 或其一些变体/仿制品......
我能解析什么？可以用beautifulsoup解析吗

标签： python git file-io git-bash

【解决方案1】：

这不是 HTML。它看起来像 XML - 尝试使用 Python 的 XML 解析器，例如 ElementTree，并解析出相关信息。该教程包含在他们的页面上。

【讨论】：

他们会是SGML吗？那件事让我有点沮丧stackoverflow.com/questions/12412994/…
嗯，是的——如果是 XML，那么它也是 SGML。看看这篇文章webdesign.about.com/od/sgml/a/… 我通常不使用 SGML/XML 数据结构，所以我不完全有能力回答大多数关于它们的高级问题，但我确定它不是 HTML。