【发布时间】:2017-06-30 19:23:25
【问题描述】:
这是我在 StackOverflow 中的第一个问题,非常感谢您的帮助!我正在尝试使用来自该页面的 NUFORC 的 python 2.7 和 R 抓取表数据并转换为 csv 文件:http://www.nuforc.org/webreports/ndxl.html。我已经看过几十个教程并试图跟随,但没有一个适用于这个实例。我查看了beautifulsoup 文档,但我没有找到可以找到线索的东西。似乎连读取剪贴板命令都不起作用(?)
最有希望的方法如下。这是我所能做到的,因为我无法在此页面上复制讲师的笔记。
import urllib2
from urllib2 import urlopen
from bs4 import BeautifulSoup
url= "http://www.nuforc.org/webreports/ndxl.html"
def make_soup(url):
thepage = urllib2.urlopen(url)
soupdata = BeautifulSoup(thepage, "html.parser")
return soupdata
soup = make_soup ("http://www.nuforc.org/webreports/ndxl.html")
for record in soup.findAll('tr'):
for data in record.findAll('td'):
print (data.text)
虽然我现在至少可以打印数据,但我不知道如何继续将数据提取到更有用的 .csv 文件中。
提前感谢您的帮助:)
【问题讨论】:
标签: python-2.7 csv web-scraping beautifulsoup