【问题标题】:Box plot for continuous data in PythonPython中连续数据的箱线图
【发布时间】:2018-05-14 03:21:30
【问题描述】:

我有一个包含 2 列的 csv 文件:

  • col1-Timestampdata(yyyy-mm-dd hh:mm:ss.ms (8 个月数据))

  • col2:热量数据(连续变量)。

由于有近 50k 条记录,我想将 col1(timestamp col) 划分为几个月或几周,然后将箱线图应用于热数据 w.r.t 时间戳。 我在R中尝试过,需要很长时间。在 Python 中需要帮助。我想我需要使用seaborn.boxplot

请指导。

【问题讨论】:

  • 您要制作 8 个月度数据图?
  • @wwii:是的。并将热量数据划分为 5-gps

标签: python seaborn boxplot continuous


【解决方案1】:

按频率分组,然后绘制组

第一个Read your csv data into a Pandas DataFrame

import numpy as np
import Pandas as pd
from matplotlib import pyplot as plt

# assumes NO header line in csv
df = pd.read_csv('\file\path', names=['time','temp'], parse_dates=[0])

我将使用一些假数据,30 天的每小时样本。

heat = np.random.random(24*30) * 100
dates = pd.date_range('1/1/2011', periods=24*30, freq='H')
df = pd.DataFrame({'time':dates,'temp':heat})

将时间戳设置为 DataFrame 的索引

df = df.set_index('time')

现在按您想要的时间段分组,本例为 7 天

gb = df.groupby(pd.Grouper(freq='7D'))

现在您可以分别绘制每个组

for g, week in gb2:
    #week.plot()
    week.boxplot()
    plt.title(f'Week Of {g.date()}')
    plt.show()
    plt.close()

而且...我没有意识到你可以做到这一点,但它很酷

ax = gb.boxplot(subplots=False)
plt.setp(ax.xaxis.get_ticklabels(),rotation=30)
plt.show()
plt.close()


heat = np.random.random(24*300) * 100
dates = pd.date_range('1/1/2011', periods=24*300, freq='H')
df = pd.DataFrame({'time':dates,'temp':heat})
df = df.set_index('time')

将数据划分为五个时间段,然后获取每个时间段的每周箱线图:

确定总时间跨度;除以五;创建频率别名;然后分组

dt = df.index[-1] - df.index[0]
dt = dt/5
alias = f'{dt.total_seconds()}S'
gb = df.groupby(pd.Grouper(freq=alias))

每个组都是一个 DataFrame,所以迭代这些组;从每个组中创建每周组并将它们绘制成箱线图。

for g,d_frame in gb:
    gb_tmp = d_frame.groupby(pd.Grouper(freq='7D'))
    ax = gb_tmp.boxplot(subplots=False)
    plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
    plt.show()
    plt.close()

可能有更好的方法可以做到这一点,如果是这样,我会发布它,或者也许有人会免费填写以进行编辑。看起来这可能导致最后一组没有完整的数据集。 ...

如果您知道您的数据是周期性的,您可以使用切片将其拆分。

n = len(df) // 5
for tmp_df in (df[i:i+n] for i in range(0, len(df), n)):
    gb_tmp = tmp_df.groupby(pd.Grouper(freq='7D'))
    ax = gb_tmp.boxplot(subplots=False)
    plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
    plt.show()
    plt.close()

Frequency aliases
pandas.read_csv()
pandas.Grouper()

【讨论】:

  • 谢谢!但是如果我必须减少热量数据的间隔(因为它很大),我该怎么做?
  • @Unknown - cut the intervals - 这是什么意思?
  • 我有 50k 热量数据,并希望分成 5-6 组并绘制每个月/周
  • 如何将其复制到直方图?我的意思是,热数据的月份标准化直方图
  • @Unknown 您绘制的是直方图而不是箱线图。?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-04-15
  • 1970-01-01
  • 2016-12-10
  • 2016-02-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多