【发布时间】:2015-08-15 19:10:34
【问题描述】:
我正在从this 页面,特别是“所有员工的统计表”中抓取数据。
当我尝试使用BeautifulSoup 或简单的正则表达式时,我无法拉表,大概是因为它是一个嵌套列表或因为换行符,尽管我真的不知道。
这里有一些示例代码:
url='http://www.forecasts.org/data/data/PAYEMS.htm'
def get( URL): #getting text from the web
ses = requests.session()
return ses.get(URL).text
htmltext=get(url)
regex = 'Date(.+?)All'
pattern = re.compile(regex)
nonFarm = re.findall(pattern,htmltext)
期望的输出:
[1939-01-01, 29923, 1939-02-01, 30101, ...]
【问题讨论】:
标签: python regex web-scraping