【发布时间】:2020-12-31 17:34:17
【问题描述】:
我知道这个问题的变体已被问过很多次,但我无法破解它并得到我想要的。
我有一个website,里面有几张桌子。感兴趣的表包含一列,其中每一行包含单词Text 超链接到不同的页面。以下是上述链接页面第一行的具体示例:
<a href="_alexandria_RIC_VI_099b_K-AP.txt">Text</a>
这是一般模式:
<a href="_something_something-blah-blah.txt">Text</a>
现在我正在这样做:
import requests
import lxml.html as lh
page = requests.get("http://www.wildwinds.com/coins/ric/constantine/t.html")
doc = lh.fromstring(page.content)
href_elements = doc.xpath('/html/body/center/table/tbody/tr/td/a/@href')
print(href_elements)
所需的响应应该是一个如下所示的项目数组:_something_something-blah-blah.txt 我得到的是一个空数组。
由于页面还有其他我不感兴趣的 href 元素,我还想修改查询以仅获取值中包含 .txt 的 href 元素。
非常感谢您提供的任何帮助!
【问题讨论】:
-
@mzjn,根据您的要求更新