【问题标题】:Convert dates to numpy datetime将日期转换为 numpy 日期时间
【发布时间】:2021-06-04 16:48:44
【问题描述】:

我有一个数据框,其中包含来自 csv 文件的日期。我需要在列中的日期与“6/'1/2021”日期之间添加一个实际天数差异的列。我用过

Act_Days.append((pd.to_datetime(df.date[t])- 
pd.to_datetime(df.settle_date))/np.timedelta64(1, 'D'))

此代码有效,但此代码需要很长时间来计算,因为数据集有大约 30K 行,我假设它是逐行计算的。是不是还是要提高速度。我听说使用 numpy 数组比使用 pandas 系列要快得多,但是当我尝试将日期列转换为 numpy 数组时,python 不会减去 2021 年 6 月 1 日的日期。它显示一个错误:

dates=output.date.to_numpy()
np.datetime64(dates)-np.timedelta64('2021-6-1', 'D')
--------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-9-05fdef3e68dd> in <module>
  1 dates=output.date.to_numpy()
----> 2 np.datetime64(dates)-np.timedelta64('2021-6-1', 'D')

ValueError: Could not convert object to NumPy datetime

【问题讨论】:

  • "2021-6-1" 不是时间增量。你想减去两个日期吗?在这种情况下,它们都需要是datetime64 值,并且结果是`timedelta64。
  • 你能添加更多代码吗,例如显示您为什么使用索引[t]?一般说明;由于 pandas 在后台使用 numpy 数组,我怀疑您是否会从更改数据类型中获得很多收益 - 您可能会从重构代码中受益更多。
  • t 代表日期列表中的日期。日期来自 csv 文件。我将 pandas 列日期转换为列表并应用 Act_Days= [] for t in range(len(output)): Act_Days.append((pd.to_datetime(df.date[t])- pd.to_datetime(df.settle_date)) /np.timedelta64(1, 'D'))

标签: python numpy datetime python-datetime


【解决方案1】:

考虑到你的方法,我会这样做(虽然不是说这是最好/最优的解决方案):

import numpy as np
import pandas as pd

# Create sample dataset with roughly 30k values
sample_dates = list(np.arange('1990-01', '2020-12', dtype='datetime64[D]'))
sample_dates = sample_dates + sample_dates + sample_dates

# Create sample dataframe
data = pd.DataFrame({
    'Dates': sample_dates
})

# Add the new column
reference_date = np.datetime64("2021-01-06", 'D')
data["Act_Days"] = data['Dates'].map(lambda date_value: int(str((np.datetime64(date_value, 'D') - reference_date)).split(' ')[0]))

# Check results
data.head()

它使用基于 NumPy 数组的操作和 Pandas' map() 方法来优化行迭代。结果如下所示:

澄清一下,字符串和整数解析已经完成,因为 NumPy Timedelta 对象不可索引。

【讨论】:

  • 您的代码运行速度提高了 7 倍。非常感谢,这正是我想要的。
  • @Camilla 很高兴它对你有用 :) 在这种情况下,你能把它标记为选定的答案吗?谢谢!
猜你喜欢
  • 1970-01-01
  • 2014-07-01
  • 1970-01-01
  • 2015-01-22
  • 2013-09-20
  • 1970-01-01
  • 2014-06-07
相关资源
最近更新 更多