【发布时间】:2021-11-25 01:46:55
【问题描述】:
{'SYMBOL': {0: 'BAF180', 1: 'ACTL6A', 2: 'DMAP1', 3: 'C1orf149', 4: 'YEATS4'}, '基因名称': {0 : ';PB1;BAF180;MGC156155;MGC156156;PBRM1;', 1: ';ACTL6A;ACTL6;BAF53A;MGC5382;', 2: ';DMAP1;DKFZp686L09142;DNMAP1;DNMTAP1;FLJ11543;KIAA1425;EAF2;SWC4;' , 3: ';FLJ11730;CDABP0189;C1orf149;NY-SAR-91;RP3-423B22.2;Eaf6;', 4: ';YEATS4;4930573H17Rik;B230215M10Rik;GAS41;NUBI-1;YAF9;'}, '说明':{0:'多溴 1',1:'BAF 复合物 53 kDa 亚基|BAF53|BRG1 相关因子|肌动蛋白相关蛋白|hArpN β;肌动蛋白样6A',2:'DNA甲基转移酶1相关蛋白1; DNMT1相关蛋白1',3:'假设蛋白LOC64769|肉瘤抗原NY-SAR-91;染色体 1 开放阅读框 149',4:'NuMA 结合蛋白 1|神经胶质瘤扩增序列 41; YEATS 域包含 4'}, 'G.O. PROCESS':{0:'转录',1:'转录',2:'转录',3:'转录',4:'转录'},'TurboSEQUESTScore':{0:70.29,1:80.29,2: 34.18, 3: 30.32, 4: 40.18}, '覆盖率%': {0: 6.7, 1: 28.0, 2: 10.7, 3: 24.2, 4: 21.1}, 'KD': {0: 183572.3, 1: 47430.4 , 2: 52959.9, 3: 21501.9, 4: 26482.7}, '基因库登录号': {0: 30794372, 1: 4757718, 2: 13123776, 3: 29164895, 4: 5729838}, 'MS/MS 肽号' :{0:'9(9 0 0 0 0)',1:'9(9 0 0 0 0)',2:'4(3 0 0 1 0)',3:'3(3 0 0 0 0)', 4: '4 (4 0 0 0 0)'}}
我想使用 3 倍的标准差作为异常值的阈值来检测和删除列 TurboSEQUESTScore 上的异常值我该怎么做?这是我尝试过的。
dataframe的名字是rename_df
z_scores = stats.zscore(rename_df['TurboSEQUESTScore'])
abs_z_scores = np.abs(z_scores)
filtered_entries = (abs_z_scores < 3).all(axis=None)
我似乎没有正确解决这个问题。
【问题讨论】:
-
请将您的数据框样本粘贴为文本,而不是图像。
-
我刚做了,不确定它看起来不错还是可读
-
使用
print(df.head().to_dict())。这将显示复制/粘贴 JSON。 -
另外,您遇到了什么问题:获取 stddev 或修剪异常值,或两者兼而有之?
-
修剪异常值