【发布时间】:2019-10-31 15:48:03
【问题描述】:
当我打印时,我得到 4 个代码和 4 个日期,但是当我使用 return 时,我只得到第一个。
这是一个带有 bs4 和 requests 的网页抓取项目。我用正则表达式抓取一个网站。我使用了 containers = soup.find.all(class) 方法来查找包含我要提取的数据的代码块。
def get_codes(containers, pattern):
for container in containers:
tweet_bodies = str(container.find('p'))
shift_codes = re.findall(pattern, tweet_bodies)
for shift_code in shift_codes:
str(shift_code)
return (shift_code)`
def get_date(containers):
for container in containers:
tweet_dates = container.find_all('a', class_='tweet-timestamp js-permalink js-nav js-tooltip')
for date in tweet_dates:
if 'title' in date.attrs:
return (date['title'])`
预期:
W9KBJ-95X9T-ZC3KW-BJTJT-5FF3T
CZWJJ-X6XHJ-9CJC5-JTT3J-WZ6WC
KZK3T-K6RSJ-ZWTCK-JTJ3T-T3HJJ
CHCBT-TF6HB-ZC3WC-BT333-KBR3B
13:14 - 28. Okt. 2019
14:30 - 27. Okt. 2019
11:33 - 26. Okt. 2019
15:54 - 25. Okt. 2019`
但我只得到一个日期和一个代码。
【问题讨论】: