【问题标题】:extract data from multiple urls stored in a column of dataframe从存储在数据框列中的多个 url 中提取数据
【发布时间】:2018-12-09 07:45:50
【问题描述】:

我想从多个 URL 中提取数据,但 URL 位于数据框的列中。

我尝试使用下面的代码提取数据,但没有成功。

from urllib.request import urlopen,Request
link = data.column1
f = urlopen(link)
myfile = f.read()
print(myfile)

它显示:

AttributeError: 'Series' 对象没有属性 'type'。

请帮助编写代码。 谢谢

【问题讨论】:

标签: python pandas dataframe web-scraping data-science


【解决方案1】:

问题是您试图一次对整个 URL 系列执行操作。

尝试遍历data.column1 的项目,不要忘记使用with 处理资源,以防止潜在的内存泄漏:

from urllib.request import urlopen

for link in data['column1']:
    with urlopen(link) as response:
        myfile = response.read()
        print(myfile)

【讨论】:

    猜你喜欢
    • 2019-10-19
    • 2021-11-27
    • 1970-01-01
    • 2022-01-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-19
    相关资源
    最近更新 更多