【发布时间】:2016-06-03 12:39:46
【问题描述】:
难以从网页中提取一些我需要的数据。
这是我正在尝试的类型
from bs4 import BeautifulSoup
import urllib
url = 'http://www.myfxbook.com/community/outlook'
htmlfile = urllib.urlopen(url)
soup = BeautifulSoup(htmlfile)
for tag in soup.findAll('td'):
print tag
(这会输出数千行代码)
This is where the data that I need is held
我不知道如何使其足够具体
我需要在 'td' 标签内的 '5169lots' ,同样的东西对于 '2879lots' 再往下一点。
因此,我主要关注的是显示欧元兑美元多头和空头手数的两个数字。
任何帮助将不胜感激。
我正在使用 Python 2.7
【问题讨论】:
-
所以在类
.underline的元素之后找到next元素 -
严格来说,尝试查找模式为
outlookTip[0-9]的元素,然后获取第二个和第三个tr元素,并从每个元素中获取第三个td文本。您可以在文档中找到的所有内容:crummy.com/software/BeautifulSoup/bs4/doc
标签: python html web beautifulsoup screen-scraping