【发布时间】:2016-04-21 13:39:32
【问题描述】:
需要从电子商务页面中抓取产品信息。但是页面有无限滚动。目前,我能够只抓取显示的产品而无需向下滚动。下面是它的代码。
require(RCurl)
require(XML)
require(dplyr)
require(stringr)
webpage <- getURL("http://www.jabong.com/kids/clothing/girls-clothing/kids-tops-t-shirts/?source=topnav_kids")
linklist <- str_extract_all(webpage, '(?<=href=")[^"]+')[[1]]
linklist <- as.data.frame(linklist)
linklist <- filter(linklist, grepl("\\?pos=", linklist))
linklist <- unique(linklist)
a <- as.data.frame(linklist)
a[2] <- "Jabong.com"
a <- add_rownames(a, "ID")
a$V3 <- gsub(" ", "", paste(a$V2, a$linklist))
a <- a[, -(1:3)]
colnames(a) <- "Links"
【问题讨论】:
-
需要页面上可用的每个产品的链接..上面的脚本提供了前 52 个产品链接..但我需要所有可用的链接..因为 jabong 具有无限滚动..也许 rselenium 可以提供帮助..但无法使用它