【问题标题】:Convert the index of a Timeseries from datetime64[ns] to datetime64[s] without loosing information将时间序列的索引从 datetime64[ns] 转换为 datetime64[s] 而不会丢失信息
【发布时间】:2019-12-19 00:20:50
【问题描述】:

我正在研究一个由时间戳索引的时间序列,精度为 ns,但实际上它应该是每秒一个。我需要在几秒钟内转换这个时间戳,因为我想提取一些周期性模式,有时我会丢失数据点,我会在每秒对转换后的数据时间重新采样后进行插值。

data = np.array([["2019-07-12 10:39:17.817000+00:00", 45],["2019-07-12 10:39:19.007000+00:00", 45],["2019-07-12 10:39:19.996000+00:00", 40],["2019-07-12 10:39:20.497000+00:00", 1],["2019-07-12 10:39:21.489000+00:00", 10],["2019-07-12 10:39:22.498000+00:00", 3],["2019-07-12 10:39:23.491000+00:00", 5],["2019-07-12 10:39:24.501000+00:00", 15],["2019-07-12 10:39:25.495000+00:00", 8],["2019-07-12 10:39:26.489000+00:00", 3],["2019-07-12 10:39:27.497000+00:00", 90],["2019-07-12 10:39:28.490000+00:00", 4],["2019-07-12 10:39:29.498000+00:00", 37],["2019-07-12 10:39:30.490000+00:00", 55]])
df = pd.DataFrame(data[:, 1], index=data[:, 0], columns=["value"])
df.index=pd.to_datetime(df.index)
print(df.to_string())
                                 value
2019-07-12 10:39:17.817000+00:00    45
2019-07-12 10:39:19.007000+00:00    45
2019-07-12 10:39:19.996000+00:00    40
2019-07-12 10:39:20.497000+00:00     1
2019-07-12 10:39:21.489000+00:00    10
2019-07-12 10:39:22.498000+00:00     3
2019-07-12 10:39:23.491000+00:00     5
2019-07-12 10:39:24.501000+00:00    15
2019-07-12 10:39:25.495000+00:00     8
2019-07-12 10:39:26.489000+00:00     3
2019-07-12 10:39:27.497000+00:00    90
2019-07-12 10:39:28.490000+00:00     4
2019-07-12 10:39:29.498000+00:00    37
2019-07-12 10:39:30.490000+00:00    55

我想要以秒为单位转换日期时间,但这样做我有重复的值:

df.index = df.index.round(freq="S")
print(df.to_string())
                          value
2019-07-12 10:39:18+00:00    45
2019-07-12 10:39:19+00:00    45
2019-07-12 10:39:20+00:00    40
2019-07-12 10:39:20+00:00     1
2019-07-12 10:39:21+00:00    10
2019-07-12 10:39:22+00:00     3
2019-07-12 10:39:23+00:00     5
2019-07-12 10:39:25+00:00    15
2019-07-12 10:39:25+00:00     8
2019-07-12 10:39:26+00:00     3
2019-07-12 10:39:27+00:00    90
2019-07-12 10:39:28+00:00     4
2019-07-12 10:39:29+00:00    37
2019-07-12 10:39:30+00:00    55

即使我选择 floor 而不是 round 它也不会工作,因为这些值:

2019-07-12 10:39:19.007000+00:00
2019-07-12 10:39:19.996000+00:00 

有没有办法以秒为单位转换日期时间,以免产生重复值?

预期输出:

                          value
2019-07-12 10:39:17+00:00    45
2019-07-12 10:39:18+00:00    45
2019-07-12 10:39:19+00:00    40
2019-07-12 10:39:20+00:00     1
2019-07-12 10:39:21+00:00    10
2019-07-12 10:39:22+00:00     3
2019-07-12 10:39:23+00:00     5
2019-07-12 10:39:24+00:00    15
2019-07-12 10:39:25+00:00     8
2019-07-12 10:39:26+00:00     3
2019-07-12 10:39:27+00:00    90
2019-07-12 10:39:28+00:00     4
2019-07-12 10:39:29+00:00    37
2019-07-12 10:39:30+00:00    55

【问题讨论】:

  • 我想比舍入更好的方法是通过插值将数据上采样到固定频率,然后对其进行下采样(如果上采样频率不是最终频率的倍数,则再次通过插值)。但是,没有办法在不丢失信息的情况下进行下采样(除非您的信号首先被过采样)。
  • 是的,我知道我问了很多,说我不想丢失信息 :),遗憾的是它不是一个过采样的信号,并且像所有真实数据一样,它没有被很好地收集。谢谢,我会尝试你解释的,我对使用时间序列有点新,所以我可能需要一段时间,但如果它更好,我会告诉你。
  • 为什么第二个 18 得到一个值,尽管它在第一个数据帧中没有?因为我认为你只是想要:df.resample('S').sum()
  • 你考虑过标准化时间序列吗?
  • @Erfan 因为机器错误地发送数据太晚了,但理论上我应该每秒进行一次测量,有时看起来我一秒钟有两次,但这是因为它的本意之前/之后一秒钟。

标签: python pandas dataframe datetime time-series


【解决方案1】:

如果您先四舍五入到最接近的 100 毫秒,然后使用 ceil 向上舍入到最接近的秒,您将获得所需的输出。

import pandas as pd

df = pd.read_csv('something.csv')

df['time'] = pd.to_datetime(df['time'], infer_datetime_format=True)
print(df)

df['time'] = df['time'].dt.round('100ms')
df['time'] = df['time'].dt.ceil('1s')
print(df)

输出:

0  2019-07-12 10:39:18+00:00     45
1  2019-07-12 10:39:19+00:00     45
2  2019-07-12 10:39:20+00:00     40
3  2019-07-12 10:39:21+00:00      1
4  2019-07-12 10:39:22+00:00     10
5  2019-07-12 10:39:23+00:00      3
6  2019-07-12 10:39:24+00:00      5
7  2019-07-12 10:39:25+00:00     15
8  2019-07-12 10:39:26+00:00      8
9  2019-07-12 10:39:27+00:00      3
10 2019-07-12 10:39:28+00:00     90
11 2019-07-12 10:39:29+00:00      4
12 2019-07-12 10:39:30+00:00     37
13 2019-07-12 10:39:31+00:00     55

【讨论】:

  • 谢谢你,它似乎在我的真实数据集上运行良好,但由于某些情况,仍然会创建一些重复项:2019-07-19 06:29:01.057000+02:002019-07-19 06:29:02.049000+02:00 所以两者都舍入到第二个 2行。我尝试将一秒钟移到具有重复项的行,并且成功地减少了很多重复项的数量。虽然我还有一些,但我想我不能有一个完美的结果。
  • @SmileyProd 你可以在使用这个之后用你更新的数据集发布一个新问题吗?我可能有一些想法..
猜你喜欢
  • 2020-11-05
  • 2020-04-28
  • 1970-01-01
  • 2022-08-15
  • 2023-03-09
  • 2017-01-05
  • 1970-01-01
  • 2019-03-29
  • 2019-05-22
相关资源
最近更新 更多