【发布时间】:2019-07-22 17:41:52
【问题描述】:
*更新:我现在得到了 Href 链接。只需要进行搜索以获取每个项目之间的所有文本。
这是我的代码: 1. 获取开始和结束数据。
import requests
from bs4 import BeautifulSoup
import re
import urllib
new_text=urllib.request.urlopen("https://www.sec.gov/Archives/edgar/data/1294017/000119312505142547/0001193125-05-142547.txt")
soup = BeautifulSoup(new_text, 'lxml')
results = soup.findAll("a", {"name" : True})
print(results)
所以我得到了这些:
<a name="toc"></a>, <a name="toc51579_1"></a>, <a name="toc51579_2"></a>,
-
获取每个起点和终点之间的文本。 (在这里,我想创建一个循环以从上面的列表中获取第一项和第二项,插入 re.search 并获取每个之间的所有文本。但我被困在这一点上。我无法让这个循环工作。我想我在将第一个和第二个数据点作为文本插入 re.search 函数时犯了一个错误。
for i in enumerate(results): new_text=re.search(r''+re.escape(results[i])+re.escape('.*?')+re.escape(results(i+1)), 汤, re.DOTALL)。团体() 打印(新文本)
原问题:
假设我可以获得 Anchor Href 的链接,我如何提取文本中锚点 Href 点之间的文本?
所以基本上,我有
<A HREF="#toc51579_1">Summary</A>
和
<A HREF="#toc51579_2">Risk Factors</A>
我想按照锚点 href 转到摘要页面,将所有文本拉到风险因素页面。
如:从
<A NAME="toc51579_1"></A>Summary </B></FONT></P>
最多 风险因素
我的第一篇文章,所以请多多包涵。 :)
非常感谢。
这是目录页。我不需要这里的文字。这是为了显示anchor Hrefs的位置。
<TR>
<TD WIDTH="88%"></TD>
<TD VALIGN="bottom" WIDTH="8%"></TD>
<TD></TD></TR>
<TR>
<TD VALIGN="bottom"><FONT SIZE="1"> </FONT></TD>
<TD VALIGN="bottom"><FONT SIZE="1"> </FONT></TD>
<TD VALIGN="bottom" ALIGN="center" STYLE="border-bottom:1px solid #000000"><FONT STYLE="font-family:Times New Roman" SIZE="1"><B>Page</B></FONT></TD></TR>
<TR>
<TD VALIGN="top"> <P STYLE="margin-left:1.00em; text-indent:-1.00em"><FONT STYLE="font-family:Times New Roman" SIZE="2"><A HREF="#toc51579_1">Summary</A></FONT></P></TD>
<TD VALIGN="bottom"><FONT SIZE="1"> </FONT></TD>
<TD VALIGN="bottom" ALIGN="right"><FONT STYLE="font-family:Times New Roman" SIZE="2">1</FONT></TD></TR>
<TR>
<TD VALIGN="top"> <P STYLE="margin-left:1.00em; text-indent:-1.00em"><FONT STYLE="font-family:Times New Roman" SIZE="2"><A HREF="#toc51579_2">Risk Factors</A></FONT></P></TD>
<TD VALIGN="bottom"><FONT SIZE="1"> </FONT></TD>
<TD VALIGN="bottom" ALIGN="right"><FONT STYLE="font-family:Times New Roman" SIZE="2">15</FONT></TD></TR>
【问题讨论】:
-
请分享您的编码尝试,因为我们不是代码编写服务。请参阅 How to Ask 和 minimal reproducible example 以获得指导。
标签: python html web-scraping beautifulsoup