使用大数据集生成样本答案

【问题标题】：Generate samples with big dataset使用大数据集生成样本
【发布时间】：2023-04-05 19:27:01
【问题描述】：

我有一个很大的数据集，因为它很大，我必须拆分它或一次加载一个变量。我已经加载了唯一标识符 id，我需要随机选择 50 个观察值 100 次。我搜索并找到了 sample 和 runiform 来生成随机样本，但是我的问题是我需要生成 100 个样本，每个样本有 50 个观察值，因为我需要从整个数据集中进行采样，这个数据集很大，我只能保留一个变量内存，所以我需要将采样结果保存 100 次。我知道我可以使用 for 循环，但是它效率不高，即使 10 个循环也需要很多时间，有没有更快的方法来生成多个样本？这是我的代码：

scalar i=0
forvalues i=1(1)100{
clear all
use generated/data1.dta
sample 50,count
save generated/sample`i'.dta,replace
merge 1:m id using generated/10m.dta
keep if _merge==3 |_merge==1
drop _merge
compress
save generated/sample`i'.dta,replace
}

我的原始文件是面板数据，我将原始文件分成几块以便处理，现在我需要选择 100 个随机样本，在代码中我使用 for 循环执行此操作，但我认为不是行之有效的方法。为了更好地描述这个问题，我有一个公司数据集，每天观察价格、回报、日期红利等，问题是原始文件非常大，因此要将它加载到内存中，我必须将它分成 6 块，所以Stata可以加载它。现在我需要为每个样本选择 50 家公司的 100 个样本，我正在使用这个循环：

***Generate 100 samples***
scalar i=0
forvalues i=1(1)100{
clear all
***Select 50 companies at random***
use generated/ids.dta
sample 50,count
***Merge with part1 of the original file***
merge 1:m permno using generated/ids10m.dta
keep if _merge==1 | _merge==3
drop _merge
compress
***Keep in the both file all the ids***
save generated/both`i'.dta,replace
drop if date==.
***Fill the sample`i' with ids which have a correspondence with the date***
save generated/sample`i'.dta,replace

clear all
***Open the both file and keep only the non-match ids***
use generated/both`i'.dta,replace
keep if date==.
keep id
***Keep the non-matched ids to check at the end what's in there***
save generated/rplc`i'.dta, replace
merge 1:m id using generated/id20m.dta
keep if _merge==1 | _merge==3
drop _merge
compress
save generated/both`i'.dta,replace
drop if date==.
append using generated/sample`i'.dta
save generated/sample`i'.dta,replace

clear all
use generated/both`i'.dta,replace
keep if date==.
keep id
save generated/rplc`i'.dta, replace
merge 1:m id using generated/id30m.dta
keep if _merge==1 | _merge==3
drop _merge
compress
save generated/both`i'.dta,replace
drop if date==.
append using generated/sample`i'.dta
save generated/sample`i'.dta,replace

use generated/both`i'.dta,replace
keep if date==.
keep id
save generated/rplc`i'.dta, replace
merge 1:m id using generated/id40m.dta
keep if _merge==1 | _merge==3
drop _merge
compress
save generated/both`i'.dta,replace
drop if date==.
append using generated/sample`i'.dta
save generated/sample`i'.dta,replace

use generated/both`i'.dta,replace
keep if date==.
keep id
save generated/rplc`i'.dta, replace
merge 1:m id using generated/id50m.dta
keep if _merge==1 | _merge==3
drop _merge
compress
save generated/both`i'.dta,replace
drop if date==.
append using generated/sample`i'.dta
save generated/sample`i'.dta,replace

use generated/both`i'.dta,replace
keep if date==.
keep id
save generated/rplc`i'.dta, replace
merge 1:m id using generated/id60m.dta
keep if _merge==1 | _merge==3
drop _merge
compress
save generated/both`i'.dta,replace
drop if date==.
append using generated/sample`i'.dta
save generated/sample`i'.dta,replace
erase generated/both`i'.dta
erase generated/rplc`i'.dta
}

现在，这段代码的问题是创建 100 个样本大约需要 40 分钟，有没有更快的方法来做同样的事情？

这是一个事件研究，这里的大小不是问题，问题不是采样而是循环的效率。

【问题讨论】：

你能给我们看一些代码吗？它有效吗？仅仅是效率问题吗？ “大”数据集到底是什么意思？请参阅help center 和stackoverflow.com/help/mcve 的询问部分。
原始数据集中实际需要多少个变量？您是否同时使用sample 和runiform()？如果是，为什么？您希望如何组织样本？每个样本一个文件，一个大文件等。没有明确的问题很难提供帮助。
你的原始数据有什么结构？是面板数据，横截面数据吗？你的目标是什么结构？如果您决定回答其中任何一个问题，请编辑您的原始帖子，而不是通过 cmets 部分中的 cmets。
感谢您的编辑。然而，许多事情仍不清楚。
其中：1) 数据集中到底有多少个观测值？ 2) 有多少家公司？ 3）研究的目的是什么？ 4) 为什么需要 100 个样本？你是如何为每个选择 n = 50 的？ 5) 在对企业的许多研究中，规模（无论如何定义）通常是一个重要的分类变量；在这种情况下，按规模分层或概率与规模成正比的抽样可能是有利的。是这样吗？

标签： stata

【解决方案1】：

您的 do 文件中有一个需要改进的地方：您正在将 600 次采样 id 与“大”文件合并。这是每个大文件只需要一个合并的代码，在您的情况下是六个。诀窍是将样本数据从长格式重塑为宽格式，每个 id 一行，并为选择该 id 的样本提供指示符。将此文件与每个大数据集合并后，重新组装样本。玩具示例有两个大文件和三个示例。

clear
/* Generate 1st BIG data set */
input id  t
10  1
10  2
40  1
40  2
40  3
50  1
50  2
55  2
55  6
90  2
90  3

end
save big1, replace

* Generate 2nd BIG data set */
clear
input id  t
90   4
90   5
100  1
100  2
100  3
140  1
140  2
143  2
155  1
155  2
180  2
180  3
end
save big2, replace

/* Generate three sample data sets-you'll do this with "sample" */
clear
input sample id
1  40
1  180
end
tempfile samp1
save `samp1'

clear
input sample id
2  10
2   90
end
tempfile samp2
save `samp2'
clear
input  sample id
3  100
3  155
end

/* Step 1. Append all samples */
append using `samp1' `samp2'
order id sample
sort id sample
list


/* Step 2. Reshape Wide with one obs per id */
tempvar set
gen `set' = sample
reshape wide sample, i(id) j(`set')
tempfile t2
save `t2'
list

/* Step 3. Merge sample ids with each "big" data set
   and append the results  */

clear
tempfile t3
save `t3', emptyok replace

forvalues g = 1/2 {
use big`g', clear
merge m:1  id using `t2'
keep if _merge ==3
drop _merge
append using `t3'
save `t3', replace
}

sort id t
list, sepby(id)

/* Step 4: Reassemble samples with data into
  one data set, saved in advance */
clear
/*temporary file to hold results */
tempfile allsamps
save `allsamps', emptyok

/* Cycle through samples: change 3 to n. of samples */
forvalues i = 1/3 {
use `t3', clear
gen sample = `i' if sample`i'==`i'
drop if sample==.
append using `allsamps'
save `allsamps', replace
}
drop sample?

order sample id
sort sample id t

save allsamples,replace
list, sepby(sample)

结果：

     +------------------+
     | sample    id   t |
     |------------------|
  1. |      1    40   1 |
  2. |      1    40   2 |
  3. |      1    40   3 |
  4. |      1   180   2 |
  5. |      1   180   3 |
     |------------------|
  6. |      2    10   1 |
  7. |      2    10   2 |
  8. |      2    90   2 |
  9. |      2    90   3 |
 10. |      2    90   4 |
 11. |      2    90   5 |
     |------------------|
 12. |      3   100   1 |
 13. |      3   100   2 |
 14. |      3   100   3 |
 15. |      3   155   1 |
 16. |      3   155   2 |
     +------------------+

其他一些观察：

您可以通过在 Stata 中设置计时器来检查 do 文件的哪些部分花费的时间最长。请参阅timer 的帮助。
sample 需要各种数据。如果 id 文件非常大，请考虑采取不需要排序的样本的方法。 Fan et al. (1962) 描述了具有此功能的抽样计划。

一个。顺序采样（扇形方法 1）。请参阅 Chromy 的第 1 (401) 页，1979

b.系统抽样

代替 n = 50 的随机样本，为 100 个样本中的每一个抽取 10 个大小为 5 的系统子样本。每个样本都被视为一个集群，因此提供了有效的标准误差。如果您可以对公司 ID 列表进行信息排序（例如，按大小、部门），则会产生进一步的优势。然后系统的子样本将分布在整个列表中。很多例子请参见 Deming (1960)。'

参考文献

克罗米，JR。 1979. 顺序样本选择方法。美国统计协会调查研究方法部分的会议记录 401-406。可以在http://www.amstat.org/sections/srms/Proceedings/papers/1979_081.pdf找到它

Deming WE (1960)，商业研究中的样本设计，纽约威利。

Fan, C. T., Muller, Mervin E. 和 Rezucha, Ivan (1962)，“通过使用顺序（逐项）选择制定抽样计划技术和数字计算机，”美国统计协会杂志，57, 387-402。

【讨论】：