【发布时间】:2017-05-25 13:06:33
【问题描述】:
我正在尝试解析来自站点(来自表)的内容并仅打印来自节点的文本,我正在使用 .text.strip() 但它无法正常工作。
我的代码:
import requests
from bs4 import BeautifulSoup
r = requests.get('http://examplesite.net')
soup = BeautifulSoup(r.content, 'lxml')
builddata = soup.find('table', {'id':'BuildData'})
table_elements = builddata.find_all('tr')
for element in table_elements:
element_dict = {'element_name':element.findChildren()[0].text.strip(), 'element_value':element.findChildren()[1].text.strip()}
print(element_dict)
结果:
{'element_value': 'Студия; 1-к кв; 2-к кв; 3-к кв; 4-к кв',
{'element_value': 'Квартира у воды, \t\t \t\tЗеленая зона', 'element_name': 'Особенности:'}
有问题的行,应该是这样的:
{'element_value': 'Студия; 1-к кв; 2-к кв; 3-к кв; 4-к кв',
{'element_value': 'Квартира у воды, Зеленая зона', 'element_name': 'Особенности:'}
我做错了什么?
【问题讨论】:
标签: python web-scraping beautifulsoup html-parsing