【发布时间】:2016-02-18 11:43:35
【问题描述】:
我正在从数据库 (test1) 中读取一个大数据文件。我无法在 R 中直接读取和处理的数百万行。
我想根据“horodatage”列从这个大文件创建子文件。我在下面给出了一个示例,从大文件中提取一个文件,但现在我想对所有文件执行此操作,而不仅仅是在这两个日期之间。
拆分必须从“23/03/2005 11:00”这个日期开始,一直持续到大文件的末尾(大约在“31/12/2005 23:59”左右(数据库中的 test1)和一个子文件的持续时间必须是 30 分钟(换句话说:每个子文件正好 36000 行)。
然后,每个子文件都必须以类似(A200503231100.dat、A200503231130.dat、A200503231200.dat、A200503231230.dat 等...)的名称保存
horodatage 列的格式已经是
> class(montableau$horodatage)
[1] "POSIXct" "POSIXt"
我开始的代码是:
heuredebut = "23/03/2005 11:00"
heurefin = "23/03/2005 11:30"
query = paste("select * from test1 where horodatage >= ",heuredebut," and horodatage < ",heurefin," order by horodatage;",sep="'")
montableau <- dbGetQuery (connection_db,query)
如果您对这个大文件的循环有任何见解,那将非常有帮助。
【问题讨论】:
标签: r date split rpostgresql