如何使用 R（Rcurl/XML 包？！）来抓取这个网页？答案

【问题标题】：How can I use R (Rcurl/XML packages ?!) to scrape this webpage?如何使用 R（Rcurl/XML 包？！）来抓取这个网页？
【发布时间】：2011-01-27 10:32:36
【问题描述】：

我有一个（有点复杂的）网络抓取挑战，我希望完成并希望找到一些方向（无论你想分享什么级别）：

我想浏览此链接中的所有“物种页面”：

http://gtrnadb.ucsc.edu/

所以对于他们每个人，我都会去：

物种页面链接（例如：http://gtrnadb.ucsc.edu/Aero_pern/）
然后到“二级结构”页面链接（例如：http://gtrnadb.ucsc.edu/Aero_pern/Aero_pern-structs.html）

在该链接中，我希望删除页面中的数据，以便我将有一个包含此数据的长列表（例如）：

chr.trna3 (1-77)    Length: 77 bp
Type: Ala   Anticodon: CGC at 35-37 (35-37) Score: 93.45
Seq: GGGCCGGTAGCTCAGCCtGGAAGAGCGCCGCCCTCGCACGGCGGAGGcCCCGGGTTCAAATCCCGGCCGGTCCACCA
Str: >>>>>>>..>>>>.........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<<....

每行都有自己的列表（在每个动物列表中的每个“trna”列表中）

我记得遇到过 Rcurl 和 XML 包（在 R 中）可以执行这样的任务。但我不知道如何使用它们。所以我想要的是： 1. 关于如何构建这样的代码的一些建议。 2. 以及如何学习执行此类任务所需知识的建议。

感谢您的帮助，

塔尔

【问题讨论】：

@Tal，如果可以的话，问一个问题：这合法吗？如果是这样，只是要求 UCSC 定期访问他们的数据库不是更容易吗？
嗨，Tal，无论如何都试着给他们写一行。你可能会发现他们很随和。他们甚至可能不知道人们想以您想要的方式使用数据。也许他们会对提供您想要的方式感兴趣？

标签： r web-scraping

【解决方案1】：

刚刚使用 Mozenda (http://www.mozenda.com) 进行了尝试。大约 10 分钟后，我有了一个可以按照您的描述抓取数据的代理。您可能只需使用他们的免费试用版就可以获得所有这些数据。如果您有时间，编码很有趣，但看起来您可能已经为您编写了解决方案。干得好，德鲁。

【讨论】：

【解决方案2】：

塔尔，

您可以使用 R 和 XML 包来执行此操作，但是（该死）这是您尝试解析的一些格式不正确的 HTML。事实上，在大多数情况下，您都希望使用 readHTMLTable() 函数 which is covered in this previous thread。

然而，鉴于这个丑陋的 HTML，我们将不得不使用 RCurl 包来提取原始 HTML 并创建一些自定义函数来解析它。这个问题有两个组成部分：

使用RCurlpackage 中的getURLContent() 函数和一些正则表达式魔法从基本网页(http://gtrnadb.ucsc.edu/) 获取所有基因组URL：-)
然后获取该 URL 列表并抓取您要查找的数据，然后将其粘贴到 data.frame。

那么，就这样吧……

library(RCurl)

### 1) First task is to get all of the web links we will need ##
base_url<-"http://gtrnadb.ucsc.edu/"
base_html<-getURLContent(base_url)[[1]]
links<-strsplit(base_html,"a href=")[[1]]

get_data_url<-function(s) {
    u_split1<-strsplit(s,"/")[[1]][1]
    u_split2<-strsplit(u_split1,'\\"')[[1]][2]
    ifelse(grep("[[:upper:]]",u_split2)==1 & length(strsplit(u_split2,"#")[[1]])<2,return(u_split2),return(NA))
}

# Extract only those element that are relevant
genomes<-unlist(lapply(links,get_data_url))
genomes<-genomes[which(is.na(genomes)==FALSE)]

### 2) Now, scrape the genome data from all of those URLS ###

# This requires two complementary functions that are designed specifically
# for the UCSC website. The first parses the data from a -structs.html page
# and the second collects that data in to a multi-dimensional list
parse_genomes<-function(g) {
    g_split1<-strsplit(g,"\n")[[1]]
    g_split1<-g_split1[2:5]
    # Pull all of the data and stick it in a list
    g_split2<-strsplit(g_split1[1],"\t")[[1]]
    ID<-g_split2[1]                             # Sequence ID
    LEN<-strsplit(g_split2[2],": ")[[1]][2]     # Length
    g_split3<-strsplit(g_split1[2],"\t")[[1]]
    TYPE<-strsplit(g_split3[1],": ")[[1]][2]    # Type
    AC<-strsplit(g_split3[2],": ")[[1]][2]      # Anticodon
    SEQ<-strsplit(g_split1[3],": ")[[1]][2]     # ID
    STR<-strsplit(g_split1[4],": ")[[1]][2]     # String
    return(c(ID,LEN,TYPE,AC,SEQ,STR))
}

# This will be a high dimensional list with all of the data, you can then manipulate as you like
get_structs<-function(u) {
    struct_url<-paste(base_url,u,"/",u,"-structs.html",sep="")
    raw_data<-getURLContent(struct_url)
    s_split1<-strsplit(raw_data,"<PRE>")[[1]]
    all_data<-s_split1[seq(3,length(s_split1))]
    data_list<-lapply(all_data,parse_genomes)
    for (d in 1:length(data_list)) {data_list[[d]]<-append(data_list[[d]],u)}
    return(data_list)
}

# Collect data, manipulate, and create data frame (with slight cleaning)
genomes_list<-lapply(genomes[1:2],get_structs) # Limit to the first two genomes (Bdist & Spurp), a full scrape will take a LONG time
genomes_rows<-unlist(genomes_list,recursive=FALSE) # The recursive=FALSE saves a lot of work, now we can just do a straigh forward manipulation
genome_data<-t(sapply(genomes_rows,rbind))
colnames(genome_data)<-c("ID","LEN","TYPE","AC","SEQ","STR","NAME")
genome_data<-as.data.frame(genome_data)
genome_data<-subset(genome_data,ID!="</PRE>")   # Some malformed web pages produce bad rows, but we can remove them

head(genome_data)

生成的数据框包含与每个基因组条目相关的七列：ID、长度、类型、序列、字符串和名称。名称列包含基础基因组，这是我对数据组织的最佳猜测。这是它的样子：

head(genome_data)
                                   ID   LEN TYPE                           AC                                                                       SEQ
1     Scaffold17302.trna1 (1426-1498) 73 bp  Ala     AGC at 34-36 (1459-1461) AGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTTTTCCA
2   Scaffold20851.trna5 (43038-43110) 73 bp  Ala   AGC at 34-36 (43071-43073) AGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTTCTCCA
3   Scaffold20851.trna8 (45975-46047) 73 bp  Ala   AGC at 34-36 (46008-46010) TGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTTCTCCA
4     Scaffold17302.trna2 (2514-2586) 73 bp  Ala     AGC at 34-36 (2547-2549) GGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACAGGGATCGATGCCCGGGTTCTCCA
5 Scaffold51754.trna5 (253637-253565) 73 bp  Ala AGC at 34-36 (253604-253602) CGGGGGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGGGTCCTCCA
6     Scaffold17302.trna4 (6027-6099) 73 bp  Ala     AGC at 34-36 (6060-6062) GGGGAGCTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGtACCGGGATCGATGCCCGAGTTCTCCA
                                                                        STR  NAME
1 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
2 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
3 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
4 >>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>.>>>.......<<<.<<<<<<<<. Spurp
5 .>>>>>>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<<<<<<.. Spurp
6 >>>>>>>..>>>>........<<<<.>>>>>.......<<<<<......>>>>.......<<<<.<<<<<<<. Spurp

我希望这会有所帮助，并感谢周日下午有趣的小 R 挑战！

【讨论】：

啊，谢谢塔尔。我没有对可能的条目进行足够彻底的搜索。很高兴你能够让它工作！
readHTMLtable 的帮助提供了一个PRE 表的方法。像： u ="gtrnadb.ucsc.edu/Ppaci1/Ppaci1-structs.html" ； h = htmlParse(u) ; p = getNodeSet(h, "//pre") ; con = textConnection(xmlValue(p[[2]])) ; readLines(con,n=4)[-1] 可能会有帮助。

【解决方案3】：

有趣的问题并同意 R 很酷，但不知何故我发现 R 在这方面有点麻烦。我似乎更喜欢首先以中间纯文本形式获取数据，以便能够验证数据在每一步中是否正确......如果数据已准备好以最终形式或将数据上传到某个地方 RCurl 非常有用。

在我看来，最简单的方法是（在 linux/unix/mac/或 cygwin 中）镜像整个 http://gtrnadb.ucsc.edu/ 站点（使用 wget）并获取名为 /-structs 的文件。 html、sed 或 awk 您想要的数据并将其格式化以读入 R。

我相信还会有很多其他方法。

【讨论】：