【问题标题】:How can we extract information from subdomain using Rcrawler in R?我们如何使用 R 中的 Rcrawler 从子域中提取信息?
【发布时间】:2017-12-22 06:20:32
【问题描述】:

我想使用主 URL 从子域中提取网页内容。

我尝试使用 Rcrawler

library(Rcrawler)

Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

运行此代码后,我得到了 INDEX 默认变量,我们可以看到网站的所有 URL。有一个 URL ""http://xbyte-technolabs.com/contact_us.php" 我想从中提取联系方式。

现在有人可以指导我如何使用 R 中的 Rcrawler 从主 URL ""http://xbyte-technolabs.com/" 转到这个特定的 URL。

【问题讨论】:

    标签: r web-scraping rcrawler


    【解决方案1】:
    library(Rcrawler)
    Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address"))
    
    pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php'])
    DATA[pageid]
    

    根据?Rcrawler,Rcrawler创建了两个全局变量

    • INDEX:全局环境中的数据框,表示 通用 URL 索引,包括获取的 URL 列表和页面 详细信息(内容类型、HTTP 状态、外链和内链的数量、 编码类型和级别),以及

    • DATA:全局环境中的列表列表已删除 内容。

    INDEX 中的 Id 变量,对应于 DATA 中的列表元素。上面的代码sn-p寻找你感兴趣的url对应的Id。

    旁注:由于您知道要查找的 URL,因此爬过整个网站似乎有点过头了。

    【讨论】:

    • 虽然此代码 sn-p 可能是解决方案,但 including an explanation 确实有助于提高您的帖子质量。请记住,您是在为将来的读者回答问题,而这些人可能不知道您提出代码建议的原因。
    • @yivi 我在回复中添加了一些解释。干杯!
    • @OttoKässi 非常感谢您的回答,这将有助于我从主 URL 中提取数据。
    • @OttoKässi 我想在全球范围内做。如果我输入主 URL,它将运行代码并给我客户的联系方式。所以我想在 R 中做
    【解决方案2】:
    library(Rcrawler)
    
    Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4)
    
    for (i in length(INDEX)) {
      for (j in nrow(INDEX)) {
    
        Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
    
      }
    
    }
    #Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
    class(DATA)
    head(DATA)
    
    ad <- DATA[[1]]
    ad <- as.character(ad)
    cat(ad)
    

    抱歉,我认为这段代码有问题 任何人都会收到以下错误:

    strsplit(gsub("http://|https://|www\.", "", Website), "/")[[c(1, : 下标越界

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-05-08
      • 2013-12-26
      • 1970-01-01
      • 1970-01-01
      • 2021-01-23
      • 2017-03-14
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多