【发布时间】:2021-11-20 00:38:52
【问题描述】:
我现在编写了打开 URL 并将 HTML 数据提取到 htmlA 的代码
在htmlA内我试图提取4条信息
- 约会
- 价格 1
- 价格2
- 百分比
嵌入这4条信息的htmlA部分如下所示:
<!-- TAB CONTENT -->\r\n\t\t\t<div class="fund-content tab-content span12">\r\n\r\n\t\t\t\t<!-- OVERVIEW -->\r\n\t\t\t\t<div class="tab-pane active" id="overview">\r\n\t\t\t\t\t<h3 class="subhead tab-header">Overview</h3>\r\n\t\t\t\t\t<div class="row-fluid">\r\n\t\t\t\t\t\t<div class="span6">\r\n\t\t\t\t\t\t\t<p class="as-of-date">\r\n\t\t\t\t\t\t\t\t<span id="ContentPlaceHolder1_cph_main_cph_main_AsOfLabel">As of 9/24/2021</span>\r\n\t\t\t\t\t\t\t</p>\r\n\r\n\t\t\t\t\t\t\t<div class="table-wrapper">\r\n\t\t\t\t\t\t\t\t<div>\r\n\t<table class="cefconnect-table-1 table table-striped" cellspacing="0" cellpadding="5" Border="0" id="ContentPlaceHolder1_cph_main_cph_main_SummaryGrid">\r\n\t\t<tr class="tr-header">\r\n\t\t\t<th scope="col"> </th><th class="right-align" scope="col">Share<br>Price</th><th class="right-align" scope="col">NAV</th><th class="right-align" scope="col">Premium/<br>Discount</th>\r\n\t\t</tr><tr>\r\n\t\t\t<td>Current</td><td class="right-align">$19.14</td><td class="right-align">$21.82</td><td class="right-align">-12.28%</
在这个例子中我要提取:
- 2021 年 9 月 24 日
- 19.14 美元
- 21.82 美元
- -12.28%
我正在尝试使用 BeautifulSoup 搜索和提取 htmlA,但在挑选出我需要的特定信息位(第 4 位)时遇到了麻烦。有人可以帮我编写执行此操作的代码吗?非常感谢!
【问题讨论】:
-
请提供足够的代码,以便其他人更好地理解或重现问题。
标签: python html web-scraping data-extraction information-extraction