【发布时间】:2019-12-10 00:57:21
【问题描述】:
我想从大约 10000 个文件中自动提取“1A. 风险因素”部分并将其写入 txt 文件。 可以找到带有文件的示例 URL here
所需部分位于“项目 1a 风险因素”和“项目 1b”之间。问题是“item”、“1a”和“1b”在所有这些文件中可能看起来不同,并且可能出现在多个地方——不仅仅是我感兴趣的最长的、合适的地方。因此,应该使用一些正则表达式,以便:
提取“1a”和“1b”之间最长的部分(否则会出现目录和其他无用元素)
考虑了表达式的不同变体
我尝试在脚本中实现这两个目标,但由于这是我在 Python 中的第一个项目,我只是对我认为可能有效的表达式进行了随机排序,并且显然它们的顺序错误(我确定我应该迭代“”元素,将每个提取的“部分”添加到列表中,然后选择最长的一个并将其写入文件,虽然我不知道如何实现这个想法)。 编辑:目前我的方法从目录返回的 1a 和 1b 之间的数据非常少(我认为它是页码),然后它停止了......(?)
我的代码:
import requests
import re
import csv
from bs4 import BeautifulSoup as bs
with open('indexes.csv', newline='') as csvfile:
reader = csv.reader(csvfile, delimiter=',')
for line in reader:
fn1 = line[0]
fn2 = re.sub(r'[/\\]', '', line[1])
fn3 = re.sub(r'[/\\]', '', line[2])
fn4 = line[3]
saveas = '-'.join([fn1, fn2, fn3, fn4])
f = open(saveas + ".txt", "w+",encoding="utf-8")
url = 'https://www.sec.gov/Archives/' + line[4].strip()
print(url)
response = requests.get(url)
soup = bs(response.content, 'html.parser')
risks = soup.find_all('a')
regexTxt = 'item[^a-zA-Z\n]*1a.*item[^a-zA-Z\n]*1b'
for risk in risks:
for i in risk.findAllNext():
i.get_text()
sections = re.findall(regexTxt, str(i), re.IGNORECASE | re.DOTALL)
for section in sections:
clean = re.compile('<.*?>')
# section = re.sub(r'table of contents', '', section, flags=re.IGNORECASE)
# section = section.strip()
# section = re.sub('\s+', '', section).strip()
print(re.sub(clean, '', section))
目标是在当前 URL 中找到“1a”和“1b”之间最长的部分(不管它们的外观如何)并将其写入文件。
【问题讨论】:
-
您好!两个初步的事情:第一,风险因素并不总是在项目 1a 和 1b 之间;在许多文件中没有第 1b 项(未解决的员工评论),计数直接进入第 2 项。其次,使用正则表达式解析 html 被认为是一个坏主意;请参阅(许多示例之一)stackoverflow.com/a/1732454/9448090。
-
当然脚本在大多数情况下会失败; EDGAR 文档的格式没有规律或理由。例如,您在上面的评论中链接到的页面甚至不会在浏览器中呈现!不知道你从哪里得到它,但你应该改用这个链接 (sec.gov/Archives/edgar/data/1000623/000100062318000044/…)。但更一般地说,解析 10,000 份文件是一项艰巨的任务,需要大量的清理工作。我认为没有办法解决它。
标签: regex url beautifulsoup text-extraction edgar