【发布时间】:2019-07-09 00:15:17
【问题描述】:
我正在尝试仅在名称存在于已存在的数据框中的数据库中提取数据。我不确定如何将列表包含到我的选择语句中。
奖励:我需要将所有数据重新格式化为更友好的格式。
library(RMySQL)
library(DBI)
db_con <- dbconnect(RMySQL::MySQL(),
username: "user",
password: "1234",
dbname = "test")
df <- as.data.frame(tbl(db_con, sql("SELECT name, loc, type, value FROM data"))
读取整个数据表。我需要根据名称字段限制输入的内容。
df$names <- "cat, hamster"
name_filter <- df$names
当前df:
# name loc type val
1 cat ab12 a 1
2 cat 1233 a 0
3 dog ab12 a 0
4 dog 45ff b 1
5 hamster ab12 a 1
6 hamster 45ff b 0
没有读取整个表的所需输出:SELECT * WHERE name IN name_filter?
# loc type cat hamster
1 ab12 a 1 1
2 1233 a 0 0
3 45ff b 0 0
编辑:尝试对数据使用 library(reshape) 并不顺利。不过,我可能做错了......我目前正在提取一个包含大约 4500 万行的截断数据库。 (完整的db在3亿左右。)
cast(df, loc+type ~ name, value = "val")
这会导致很长的停顿,然后是“聚合需要 fun.aggregate:长度用作默认值”错误,然后是似乎永无止境的停顿。
EDIT2:名称列表有几百个项目,每次请求时都不同。每个名称有数万个值。
EDIT3:我在另一个线程中发现了这个,它试图根据值列表生成一个选择语句。我不确定它是否有用,因为我也无法让它工作。
list <- list$Name
sel <- "SELECT name, loc, type, val FROM data WHERE name IN (%s)"
sql1 <- sprintf(sel,paste(list, collapse =","))
yields:
"SELECT name, loc, type, val FROM data WHERE name IN (dog,cat,hamster,square,triangle,circle,ball,horse,lion)
EDIT4:尝试使用以下内容,但收到有关 MariaDB 语法的错误。 MySQL 和 MariaDB 的 select 语句有区别吗?
list <- df$Name
sqlqry <- "SELECT data.loc, data.type"
for (i in 1:length(list)) {
sqlqry <- paste0(sqlqry, sprintf(", MAX(CASE WHEN data.name = '%s'
THEN 1 ELSE 0 END) AS %s",list[i], list[i]))
}
sqlqry <- paste0(sqlqry, "FROM
data
GROUP BY
data.loc
, data.type")
test <- dbSendQuery(db_con, sqlqry)
【问题讨论】:
-
您的输出更改将是一个数据透视表,而您将在 MySQL 中找到解决方案,在您的应用程序中更容易做到。
-
“在你的应用程序中更容易做到”@danblack 好吧,我认为 MySQL 更容易,除了在应用程序中进行旋转需要双内存来保存完整的表(尝试使用数百万或数十亿关闭记录这很可能不是这里的情况,但仍然)结果和您正在构建枢轴的临时结果。除了
loc, type, name上的(覆盖)索引将使其(照明)快速。 -
几亿条记录.....目前正在玩弄 reshape 以将其转换为我想要的格式......它在时间上并不顺利。大声笑如果我能让 select 语句正确运行,它只会拉入 4000 万条左右的记录?
-
"几亿条记录....." 在该表之外添加该大小的索引也可能需要一段时间.. 你能发布
SHOW CREATE TABLE <table>和 MySQL 版本吗SELECT VERSION();.. 对于动态 MySQL 透视查询,您很可能需要loc, type, name上的索引