【发布时间】:2020-01-15 12:25:49
【问题描述】:
您好,我正在尝试从在其“dl”标签中包含数据的网站中抓取一些数据,这是网站结构的外观
<div class="ecord-overview col-md-5">
<h2><span itemprop="name">Donald Duck</span></h2>
dl class="row">
</dd>
<dt class="col-md-4">Email</dt>
<dd class="col-md-8">myemail.com</dd>
</dl>
<div class="ecord-overview col-md-5">
<h2><span itemprop="name">Mickey mouse</span></h2>
dl class="row">
</dd>
<dt class="col-md-4">Email</dt>
<dd class="col-md-8">youremail.com</dd>
</dl>
... data goes on but value differs
为了刮掉这个我正在使用硒:
我的抓取代码
for element in driver.find_elements_by_class_name('ThatsThem-record-overview'): # here im scraping name
#print(Style.RESET_ALL)
print(Fore.RED + element.text + Style.RESET_ALL)
#print(Style.RESET_ALL)
time.sleep(1)
dl= driver.find_element_by_tag_name('dl') # scraping data under dl tag
print(dl.text)
print('-----------------------')# seperator
所以发生了什么,每当我执行程序时,它会为每个这样的名称和数据打印相同的 dl 内容
donald duck
Email
myemail.com
-------------
mickey mouse
Email
myemail.com
我已经尝试将 dl 放入 for 循环中,就像我打印名称一样,但它也会打印其他我不想要的东西
我能做什么?
【问题讨论】:
-
你得到的额外数据是什么,你不想打印什么?
标签: python python-3.x selenium