【发布时间】:2017-05-22 14:45:58
【问题描述】:
好的,我已经在这里阅读了很多关于使用美汤的答案。仍然没有运气在这里完成我需要做的事情是我的
soup = BeautifulSoup(open("/home/brendan/PycharmProjects/untitled2/newDeficency.html"),"html5lib")
for element in soup.find_all('input'):
print(element['name'], element['value'])
因为现在这是一个更大程序的一部分,所以我只是缓存了一个我现在想抓取的页面类型的副本,这目前不返回任何内容,但以下代码返回文档中的所有超链接
for element in soup.find_all('a'):
print(element['href'])
我不确定为什么这不能正常工作,因为我也尝试过使用
'li' , 'select' 'option' and 'form'
尽管他们显然在源代码中,但没有成功是here is a link to source page
非常感谢,因为我已经把这 6 行代码弄乱了几个小时,完全迷失了
【问题讨论】:
-
我尝试点击“源页面”的链接给了我:{"error":{"errors":[{"domain":"global","reason":"lockedDomainExpired", "message":"锁定域过期"}],"code":401,"message":"锁定域过期"}}.
-
澄清一下,您只想获取页面的所有
input元素的“名称”和“值”属性? -
对不起,我更新了源链接,第一次没有使用公共链接但是是的,我只是想获取“输入”的名称和值
-
问题是一些 没有 'name' 而一些 没有 'href' 。你到底想刮什么?
-
好的,可能是这种情况,但正如比尔·贝尔所展示的那样 [inputs = soup.find_all('input');len(inputs) ] 仍然应该返回一个除零以外的数字 .. 和 im试图抓取本质上是一个定制的 phpmyadin 面板
标签: python python-3.x web-scraping beautifulsoup