【发布时间】:2026-02-13 23:55:01
【问题描述】:
所以这不是我需要使用的数据集,但它是我正在为癌症研究项目使用的一个巨大数据集(约 180 万个数据点)的模板,所以我想我是否可以得到它使用较小的,然后我可以适应我的大的!所以作为一个示例,假设我有以下数据集:
import numpy as np
import pandas as pd
df = pd.DataFrame({
'cond': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'B', 'B','B', 'B', 'B', 'B', 'B','B','B'],
'Array': ['S', 'S', 'TT', 'TT','S', 'S', 'TT', 'TT','S', 'S', 'TT', 'TT','S', 'S', 'TT', 'TT','SS','TT'],
'X': [1, 2, 3, 1, 2 , 3, 4, 7.3, 5.1, 3.2, 1.4, 5.5, 9.9, 3.2, 1.1, 3.3, 1.2, 5.4],
'Y': [3.1, 2.2, 2.1, 1.2, 2.4, 1.2, 1.5, 1.33, 1.5, 1.6, 1.4, 1.3, 0.9, 0.78, 1.2, 4.0, 5.0, 6.0],
'Marker': [2.0, 1.2, 1.2, 2.01, 2.55, 2.05, 1.66, 3.2, 3.21, 3.04, 8.01, 9.1, 7.06, 8.1, 7.9, 5.12, 5.23, 5.15],
'Area': [3.0, 2.0, 2.88, 1.33, 2.44, 1.25, 1.53, 1.0, 0.156, 2.0, 2.4, 6.3, 6.9, 9.78, 10.2, 15.0, 16.0, 19.0]
})
print(df)
这会产生如下所示的输出:
cond Array X Y Marker Area
0 A S 1.0 3.10 2.00 3.000
1 A S 2.0 2.20 1.20 2.000
2 A TT 3.0 2.10 1.20 2.880
3 A TT 1.0 1.20 2.01 1.330
4 A S 2.0 2.40 2.55 2.440
5 A S 3.0 1.20 2.05 1.250
6 A TT 4.0 1.50 1.66 1.530
7 A TT 7.3 1.33 3.20 1.000
8 A S 5.1 1.50 3.21 0.156
9 B S 3.2 1.60 3.04 2.000
10 B TT 1.4 1.40 8.01 2.400
11 B TT 5.5 1.30 9.10 6.300
12 B S 9.9 0.90 7.06 6.900
13 B S 3.2 0.78 8.10 9.780
14 B TT 1.1 1.20 7.90 10.200
15 B TT 3.3 4.00 5.12 15.000
16 B SS 1.2 5.00 5.23 16.000
17 B TT 5.4 6.00 5.15 19.000
好的,现在我需要做的是根据两个标签“cond”和“Array”来拆分它们。我是这样做的
g=df.groupby(['cond','Array'])['Marker']
这将其分成 4 个较小的集合,分别为 A-S、A-TT、B-S、B-TT 配对。现在我有一个自定义功能可以使用。这是函数的一部分,我将解释它是如何工作的:
def num_to_delete(p,alpha,N):
if p==0.950:
if 1-alpha==0.90:
if N<=60:
m=1
if 60<N<80:
m=round(N/20-2)
if 80<=N:
m=2
if 1-alpha==0.95:
if N<=80:
m=1
if 80<N<=100:
m=round(N/20 -3)
if 100<N:
m=2
return m
好的,它的工作方式是我向其中输入我选择的“p”和“alpha”(真正的函数涵盖了更多 p 和 alpha 的情况)。输入它的 N 是我的较小数据集的元素数(在这种情况下,对于 A-S,它是 5,对于 A-TT,它是 4,等等)。所以我想要发生的是,对于每个较小的数据集,吐出一些要删除的点(在这个例子中,函数总是给我们 1,但我试图用函数来编码应用于超大数据集)。既然它给出了数字 1,那么我希望它删除该集合的 1 个最大数据点,并告诉我剩下的最高点是什么。
例如,对于 A-S 耦合,我有 5 个数据点:2.0、1.2、2.55、2.05 和 3.21。由于有 5 个数据点,我的函数告诉我删除其中的 1 个,所以忽略 3.21,并告诉我剩下的最高数据点是什么,在这种情况下是 2.55。我想对每个耦合都这样做,但在我的真实数据集中,我会有不同数量的元素,所以函数会告诉我为每个耦合删除不同的数字。
我的最终目标是拥有一个看起来像这样的决赛桌:
cond Array NumDeleted p95/a05 p95/a10
0 A S 1.0 2.55 2.55
1 A TT 1.0 2.01 2.01
2 B S 1.0 7.06 7.06
3 B TT 1.0 8.01 8.01
对于较大的集合,最后 2 列中的值会有所不同,因为在大型数据集中,要删除的值的数量差异很大,因此剩余的值也会有所不同。我最终需要根据我得到的 p95/a05 和 p95/a10 的值来更改第二个数据集
无论如何,很抱歉解释了这么长,但如果有人能提供帮助,那就太棒了!我希望这是一件相当简单的事情,因为我已经坚持了一个多星期了。
【问题讨论】:
-
不会
NumDeleted依赖于p和a的值吗?那么NumDeleted指的是哪个值呢? -
@adrianp 是的,这是正确的。理论上,根据我使用的 p 和 a,我需要多个 NumDeleted 列
-
我不清楚。在您的输出数据框中,您有两列具有不同的
p和a值,但只有一个NumDeleted列。每个配置都需要NumDeleted吗? -
@adrianp 对不起,我误解了你写的内容。理想情况下,我会为每种配置设置一个,作为我继续跟踪的一种方式(尽管这些列不如 p95/a05 和 p95/a10 列重要,因为这将构成分析的大部分,所以如果它是工作太多,我不需要)
-
嗨,
m是什么p # 0.95?
标签: python pandas split-apply-combine