【发布时间】:2018-12-28 23:56:49
【问题描述】:
问题:
有一个网站https://au.pcpartpicker.com/products/cpu/overall-list/#page=1,在<ul> 下有一个列表<li>,列表中的每个项目都包含一个<div>,其中类title 在该类中还有2 个@987654325 @ 元素第一个有一些文本示例 3.4 GHz 6-Core (Pinnacle Ridge) 我想删除所有不在括号中的文本以获得 Pinnacle Ridge。删除列表后,我想通过更改 #page= 进入下一页。
代码:
我不太确定是否只有 sn-ps,但它是:
从 requests_html 导入 HTMLSession 会话 = HTMLSession()
r = session.get('https://au.pcpartpicker.com/product/cpu/overall-list/#page=' + page)
table = r.html.find('.ul')
//not sure find each <li> get first <div>
junk, name = div.split('(')
name.replace("(", "")
name.replace(")", "")
预期结果:
我想遍历每个页面,直到没有人找到每个列表并获得不需要保存的名称,因为我有代码在创建它时保存它。
如果您需要更多信息,请告诉我
谢谢
【问题讨论】:
标签: python html python-3.x beautifulsoup python-requests-html