在 R 中对数据进行子集化时生成 NA
我遇到了这个问题,这让我发疯了。我尝试使用以下命令过滤 R 中的数据: data <- data[data$v1 != "T",] 只要过滤后的数据包含所需的行数,这就会起作用。但是,由于“v1”包含 NA,过滤前所有 v1 = NA 的观察现在仅包含所有列中的 NA。 有人知道为什么会这样吗? 已经非常感谢了。 ... »
我遇到了这个问题,这让我发疯了。我尝试使用以下命令过滤 R 中的数据: data <- data[data$v1 != "T",] 只要过滤后的数据包含所需的行数,这就会起作用。但是,由于“v1”包含 NA,过滤前所有 v1 = NA 的观察现在仅包含所有列中的 NA。 有人知道为什么会这样吗? 已经非常感谢了。 ... »
我得到了一个矩阵 m,如下所示: df <- c("2011-01-02", "2011-01-05", "2011-01-08", "2011-01-11", "2011-01-14", "2011-01-17", "2011-01-20", "2011-01-23", "2011-01-26", "2011-01-29", "2011-02-01", "2011-02-04", "... »
我正在准备期末考试,过去考试给我们的练习题之一如下: 我的直觉告诉我要把这个问题简化为子集和问题。 我最初的解决方案是: 设“A”为子集和 NP-完全问题。 让“B”成为我们试图证明是 NP-Complete 的分区问题 'A' 采用一个实例 alpha,即:集合 S 和值 'b' 'B' 采用一个实例 beta,即:一个集合 S' 和一个用于决策的 k 值 我们希望以多项式方... »
我有一个df: df = data.frame(a = c(1, 2, 3), b = c(3, 2, 1)) 我像这样子集df: df = df[2:3, ] 现在,当我检查df 时如下: > df a b 2 2 2 3 3 1 第一个值的数字是 2,第二个数字的数字是 3。如何以新子集具有有序数字的方式对原始 df 进行子集化? 期望的输出: > df a b ... »
我有一个数据框,我想根据两个条件对其进行子集化。第一个是我想在第 5 列中选择具有字符串“A”的行。第二个是我想确保这些行在第 6 到 50 列中没有字符串“Y”。 我可以轻松选择第一个条件,但第二个条件有问题。 # example input (data) 1 2 3 4 5 6 7 8 9 ETC TO 50 X X X X A Z Z Z Z X X X X A A Z Z Z X... »
我有一个数据框,其中包含一个带有时间戳的列(称为“时间戳”)和一个包含空气污染物浓度的列(称为“值”)。 我有一个空气污染物的阈值,例如 11(例如),并且想绘制达到阈值前 5 小时到达到阈值后 24 小时内所有发生的浓度与时间的关系图浓度达到或超过11。 我想我可以画出图表,但此时我的主要问题是对达到阈值前后期间的数据进行子集化和存储。关于如何做到这一点的任何想法? 谢谢。 ... »
我必须为以下问题找到一个算法: 输入是自然数的两个数 S 和 k 以及一组未排序的 n 对不同的数。 在 O(n) 中决定是否有 k 个数字的子集总和为... »
我在数据框中有一列,我想根据同一列中的标题对其进行子集化。它基本上看起来像这样: df <- data.frame(col = c("Var: A", "1", "3", "5", "Var:B", "2", "4", "6", "7", "Var: C", "7", "1")) [df] col 1 Var: A 2 1 3 3 4 5... »
我有数千个扩展名为 .txt 的文件,在一个公用文件夹中使用空格 ("") 作为分隔符。我需要: 提取某些列。我需要删除最后一列,例如只选择第 1、2、3 和 7 列。我已经用循环编写了这段代码: # Setting working directory workingdirectory <- "D:/FolderContainsThousandsFile" se... »
我有一张如下表: [,1] [,2] [,3] [,4] [,5] [1,] a A 0.06 0.31 -1.5 [2,] b B -0.75 0.2 0.02 [3,] c C 1.58 -0.02 1.5 我想在第 3 到第 5 列设置一个截断值,以找到绝对值大于 1 的单元格。 我也想... »
inspectdb 我有这样一个模型 class User(models.Model): id = models.AutoField(primary_key=True) login = models.CharField(max_length=30) ... created_on = models.DateTimeField(blank=True, null=Tru... »
我正在解决这个问题: 子集和问题将n 整数的集合X = {x1, x2 ,…, xn} 和另一个整数K 作为输入。问题是检查是否存在 X 的子集 X' 其元素总和为 K 并找到子集(如果有)。例如,如果X = {5, 3, 11, 8, 2} 和K = 16 则答案为YES,因为子集X' = {5, 11} 的总和为16。为运行时间至少为O(nK) 的子集和实现算法。 注意复杂性O(n... »
这两天我一直在摸不着头脑,我想不出解决办法。我正在寻找的是一个函数f(s, n),它返回一个包含s 的所有子集的集合,其中每个子集的长度为n。 演示: s={a, b, c, d} f(s, 4) {{a, b, c, d}} f(s, 3) {{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}} f(s, 2) {{a, b}, {a, c}, {a, ... »
我正在尝试对 data.table 进行子集化,这里是小示例,但需要做更大的示例。 我有 dt 和唯一的列,code_id 是关键: > UniqueCodes code_id 1: 2: ..... 3: 10073011000001107 4: 100739110... »
我有一个看起来像这样的数据框 vessday gearval gear otherfields 152 1 OTB a 152 0 NA b 152 1 OTB c 152 1 HMD b 152 0 NA e 153 1 ... »
我在 R 中有一个时间序列(在示例数据框中,我创建了 1 到 5 秒;实际上它从 -2 到 20 秒)。对于这些时间中的每一个,我都有一个变量的值(在示例 SD1 和 SD2 中;实际上我有 49 个值系列)。我想识别从 2 秒到 4 秒的平均值为 < +5 和 > - 5 的所有变量。一旦它们被识别出来,我想从数据集中删除这些值,但保持时间序列的其余部分完好无损。 示例数据框 df1 <-... »
我有一个问题正在尝试解决,但遇到了一堵砖墙。我试图找到给定特定污染物名称和 ID 号的一组数据的平均值。所以我相信一直到 for 循环的代码都可以正常工作。我创建了一个带有 3 个参数的函数,创建了一个空的 data.frame,然后将我的所有文件绑定到一个名为“dat”的变量中。 现在我正在尝试通过“id”和特定的污染物名称(其中有两个名为硫酸盐和硝酸盐)来对这些新的绑定数据进行子集化。如您所... »
我是pyspark 的新手,想将我现有的pandas / python 代码翻译成PySpark。 我想对我的dataframe 进行子集化,以便只返回包含我在'original_problem' 字段中查找的特定关键字的行。 下面是我在 PySpark 中尝试过的 Python 代码: def pilot_discrep(input_file): df = input_fil... »
如果你有父表 create table parent ( pid int not null, name varchar(255) ) 还有一个父子连接表 create table parent_child ( pid int not null, cid int not null, foreign key (pid) references parent(pid), f... »
我在一个名为 df 的表中有 12 列数据,第一列包含数千个字符串,例如AA150502-01, AA150502-02, BB150502-01, BB150502-03, etc。 我想过滤表格,只看到以后缀"-01" 结尾的行,我该怎么做? 到目前为止我有: myd <- subset(df, Date_ID == 'AA150502-01') 我需要为"-01" 之前的... »