【发布时间】:2021-03-11 21:01:34
【问题描述】:
我正在尝试解析一个 txt,示例如下链接。 但是,txt 是 html 格式的。我正在尝试获取位于文件顶部的“COMPANY CONFORMED NAME”,并且我的函数应该返回“Monocle Acquisition Corp”。 https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt
我在下面尝试过:
import requests
from bs4 import BeautifulSoup
url = 'https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt'
r = requests.get(url)
soup = BeautifulSoup(r.content, "html")
但是,“soup”根本不包含“COMPANY CONFORMED NAME”。 有人能指出我正确的方向吗?
【问题讨论】:
-
此文档似乎包含一些 HTML,但您感兴趣的部分不是 HTML。你不能使用 Beautiful Soup 来解析它。