【发布时间】:2019-10-15 16:29:57
【问题描述】:
我试图从这个网站列出所有前 1000 名 instagramer 帐户:'https://hypeauditor.com/top-instagram/'。 从 lxml 返回的列表对于 lxml.html 和 lxml.etree 都是空的。
我尝试删除 tbody、删除 text() 和上部 xpath,但都失败了。 值得注意的是,使用上层 xpath,它确实给我返回了一些东西,但它几乎是 /n。
我首先尝试了 lxml.etree
market_url='https://hypeauditor.com/top-instagram/'
r_market=requests.get(market_url)
s_market=etree.HTML(r_market)`
file_market=s_market.xpath('//*[@id="bloggers-top-table"]/tr[1]/td[3]/a/text()')
然后我也尝试了 lxml.html。
tree=html.fromstring(r_market.content)
result=tree.xpath('//*[@id="bloggers-top-table"]/tr/td/h4/text()')
此外,我尝试了这个 xpath:
s_market.xpath('//*[@id="bloggers-top-table"]/tbody/text()')
它没有给我任何错误。但是经过所有的尝试,它仍然给我一个空列表或一个充满 n/ 的列表。
我在网络抓取方面没有真正的经验,所以我可能只是在某个地方犯了一个愚蠢的错误,但是由于没有数据我无法启动我的机器学习模型,我真的很挣扎,请帮助。
【问题讨论】:
-
您是在整个表格之后还是在某些列之后?
-
我只关注instagramer账户的栏目。
标签: python html web-scraping lxml xml.etree