【发布时间】:2020-10-25 04:12:59
【问题描述】:
我正在做一个网络抓取项目。每个网页都有一个包含 101 行的表格。主要代码块显示了从网页中提取信息的初始尝试,该网页将不同列中的值提取到满足不同列满足条件的空向量中。
附加调用不起作用,我不确定发生了什么。有人可以帮助指导我正确的方向,并向我解释为什么这种特殊的方式有效吗?我感谢任何想法或想法。
wl_record <- c()
dateof <- c()
con_1 <- str_detect(misawa$X4, "Mitsuharu Misawa defeats")
con_2 <- str_detect(misawa$X4, "defeats Misuharu Misawa")
for(i in misawa$X4){
if (str_detect(i, "Mitsuharu Misawa defeats") == TRUE) {
dateof[con_1] <- misawa$X2
wl_record[con_1] <- "win"
} else if(str_detect(i, "defeats Mitsuharu Misawa") == TRUE) {
append(dateof[con_1], misawa$X2)
append(wl_record[con_1], misawa$X2) <- "loss"
}
}
*编辑 下面是 misawa 数据框的摘录。列是 X1 = 记录编号,X2 = 日期,X3 = 空白,X4 = 匹配信息。字符串检测很重要,因为我只是想提取单打匹配数据。 “defeat”表示标签匹配,而“defeats”表示单打匹配:
X1 X2 X3 X4
901 10.12.2000 Daisuke Ikeda & Mitsuharu Misawa defeat Kenta Kobashi & Takeshi Rikio (21:55)NOAH The Final Navigation - Tag 7 - Event @ Act City Hamamatsu in Hamamatsu, Shizuoka, Japan
902 08.12.2000 Takao Omori & Yoshihiro Takayama defeat Mitsuharu Misawa & Yoshinari Ogawa (18:41)NOAH The Final Navigation - Tag 6 - Event @ Miyagi Sports Center in Sendai, Miyagi, Japan
903 07.12.2000 Mitsuharu Misawa & Yoshinari Ogawa defeat Jun Akiyama & Takeshi Morishima (15:34)NOAH The Final Navigation - Tag 5 - Event @ Odate Citizen Gymnasium in Odate, Japan
for 循环的结果是一个与原始数据帧长度相等的向量。不满足条件的行显示为 NA。目标是追加每个向量,直到我拥有所有数据,然后将 dateof 和 wl_record 组合成一个数据帧,然后从中删除 NA。
【问题讨论】:
-
嗨,wnettles,欢迎来到 Stack Overflow。目前尚不清楚您要对代码做什么。如果您至少提供带有
dput(misawa[1:20,])的数据样本以及您的预期输出,那么提供帮助会容易得多。您可以edit您的问题并粘贴输出。请用三个反引号(```)包围输出以获得更好的格式。请参阅How to make a reproducible example 了解更多信息。