【发布时间】:2018-03-12 05:02:23
【问题描述】:
尝试从网页中抓取数据:
在 html 中会有多个结果,寻找最有效的方式使用 find_all 来检索 div 和 span 标签中的项目,
我唯一能让每个条目不同的是/results?phoneno=999999999&rid=0x0。
它会有一个 rid=0x0 rid=0x1 等。不知道如何获取下面列出的所有这些元素
<div class="card-summary" data-detail="/results?phoneno=999999999&rid=0x0">
<div class="row">
<div class="col-md-8">
<div class="h4">Kevin Johnson</div>
<div>
<span class="content-label">Age </span>
<span class="content-value">54 </span>
</div>
<div>
<span class="content-label">Lives in </span>
<span class="content-value">Las Vegas, NV</span>
</div>
</div>
</div>
</div>
<div class="card-summary" data-detail="/results?phoneno=6666666666&rid=0x02">
<div class="row">
<div class="col-md-8">
<div class="h4">Amy Smith</div>
<div>
<span class="content-label">Age </span>
<span class="content-value">25 </span>
</div>
<div>
<span class="content-label">Lives in </span>
<span class="content-value">New York, NY</span>
</div>
</div>
</div>
</div>
即:["Kevin Johnson", "54", "Las Vegas, NV", "/results?phoneno=999999999&amp;rid=0x0"]
将每个人放入列表然后将其输出以打印
喜欢data = [["Name","Age","Location","URL"]]
【问题讨论】:
-
那么……这里的问题是什么?
find_all所有div标签最有效的方法是find_all所有div标签;实际上没有任何替代方案可以满足该要求。另外,“最有效的方式”真的是首要要求吗? -
你能把你到现在做的代码或脚本包括进来
-
sorry html 第一次没有正确发布,已编辑
标签: python beautifulsoup