【发布时间】:2018-10-24 22:40:18
【问题描述】:
所以我有这个包含 18 个变量和大约 10,000,000 个观察值的数据集。该集合对于我的计算机来说太大了,因此我需要采集较小的数据样本来分析它。但是,我不想要一个随机样本。我的变量之一“tip_level”是一个具有两个级别的因素,“高”和“低”。有没有办法对 100,000 个观测值进行抽样,其中 50,000 个为“高”变量,50,000 个为“低”变量?
【问题讨论】:
-
数据集存储在哪里/如何存储?如果不进行分析,您是否有足够的内存来加载整个内容?
-
我不知道您要分析的具体是什么,但如果它是某种东西,它是否更适合SQL?
-
它在我的硬盘上,我可以将它加载到 r 中。只是用它做任何事情都需要永远完成。
标签: r