【发布时间】:2017-05-25 01:17:34
【问题描述】:
如果我有如下 HTML 片段,我如何在 python 中获得如下所需的输出。
示例 HTML sn-p:
<td width="10" class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&itemNumber=0">></a></td>
<td class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&itemNumber=0">002396653</a></td>
<td class="data1">IMPORT EXPRESS RECYCLE</td>
<td class="data1">961879066</td>
<td class="data1">11/23/2016</td>
<td class="data1"></td> <!--SARA-->
<td class="data1" align="center">CN</td>
<td class="data1" align="center">PVG</td>
输出:
961879066|CN
到目前为止我的代码:
def reading():
with open("C:\\Users\\John\\Desktop\\test.txt") as f:
for lines in f.readlines():
line = lines.replace("\t","").strip()
print (line)
f.close()
reading()
谢谢,
【问题讨论】:
-
您应该使用beautifulsoup 来解析html 内容...顺便说一句,如果您发布您试图抓取的网站链接会有所帮助。例如,您可以使用
soup.find_all('td', {'class':'data1'})获取所有td属性等于data1的td标签。 -
我同意@dot.Py 我们需要链接(或完整的 HTML 页面)。我认为您想要第四个和第六个
td标签的文本是否正确?