【问题标题】:How do I query more than one column in a data frame?如何查询数据框中的多个列?
【发布时间】:2022-07-02 04:41:56
【问题描述】:

我正在上一门使用 Python 的数据科学课程,这是一个让我今天感到困惑的问题。 “犹他州多年来有多少婴儿被命名为“奥利弗”? 为了回答这个问题,我们应该使用这个集合中的数据https://raw.githubusercontent.com/byuidatascience/data4names/master/data-raw/names_year/names_year.csv

所以我从加载 pandas 开始。

import pandas as pd

然后我加载数据集并创建了一个数据框

url='https://raw.githubusercontent.com/byuidatascience/data4names/master/data-raw/names_year/names_year.csv'

names=pd.read_csv(url)

最后我使用 .query() 方法来挑选出我想要的数据类型,名称为 Oliver。

oliver=names.query("name == 'Oliver'")

我最终使用此代码找到了犹他州名为 Oliver 的婴儿总数

total=pd.DataFrame.sum(quiz)

print(total)

但我不确定如何挑选出名称和州的数据,或者是否有可能。有没有人知道找到这个答案的更好方法?

【问题讨论】:

  • quiz 是什么,您的预期输出是什么?
  • 如果测验代表状态,那么我假设您正在寻找类似的东西:total = pd.DataFrame.sum(names.query("name == 'Oliver'")['UT' ])
  • 类似但有点不同:total = names.query("name == 'Oliver'")["UT"].sum()

标签: python pandas data-science


【解决方案1】:

你已经有了所有的代码,你只需要多一行就可以根据状态求和:

print(oliver.UT.sum()) # this will give you the total for the state of UTAH

忘记测验。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-02-23
    • 2018-05-14
    • 1970-01-01
    • 1970-01-01
    • 2013-11-03
    • 2019-01-15
    相关资源
    最近更新 更多