【发布时间】:2021-07-08 12:32:30
【问题描述】:
我有一个大型数据集,我想从中选择一个样本。样本总体或多或少是随机选择的,因此我无法使用范围来提取这些记录。我需要使用大约 10k 个不同的值。
我能想到的一种方法是使用 WHERE 子句,但这感觉效率低下,我不确定在执行时是否也会导致问题...
UoD_ID = 3021235
或 3021352
或 3035235 ... x 10,000 个过滤器
干杯,
【问题讨论】:
-
您有 UoD_ID 可在 where 子句中使用?这些将如何选择?随机还是有人会选择那些?
-
提示:
IN。你似乎想要in。 -
这取决于您的 DBMS:例如:SELECT column FROM table ORDER BY RAND() LIMIT 10000.. 请提供更多详细信息。
-
@KaziMohammadAliNur 是的,我应该指定 - 已经选择了 10k 个样本。我有他们的 ID,现在需要从更广泛的人群中获取更多关于他们的信息。
-
将值放入另一个表并进行连接?