【发布时间】:2016-11-15 20:32:11
【问题描述】:
我有一个可以从这里下载的数据 http://mips.helmholtz-muenchen.de/proj/ppi/ 在页面的最后,写着“你可以得到完整的数据集”
然后我尝试使用xml包
library(XML)
doc <- xmlTreeParse("path to/allppis.xml", useInternal = TRUE)
root <- xmlRoot(doc)
但它似乎是空的
我想要什么?
如果我打开从该网站下载的 allppi.xml,
我想将特定的行解析成一个txt文件,它以<fullName>开头,以</fullName>结尾
例如,如果我打开那个文件,我可以看到这个
<fullName>S100A8;CAGA;MRP8; calgranulin A (migration inhibitory factor-related protein 8)</fullName>
那我想要这个
Proteins description
S100A8;CAGA;MRP8 calgranulin A (migration inhibitory factor-related protein 8)
【问题讨论】:
-
需要先下载解压文件,然后才能解析。 This shows a way。所以试试
temp <- tempfile() ; download.file("http://mips.helmholtz-muenchen.de/proj/ppi/data/mppi.gz", temp) ; unz(temp, "allppis.xml"),然后doc <- xmlTreeParse(temp, useInternal = TRUE) ; root <- xmlRoot(doc) -
@user20650 现在我只需键入 doc,我看到 xml 在其中,但它保存在哪里?你能帮我得到我想要的确切输出吗?
-
好的,你可以下载了。我不知道如何解析这个 - 因此只是评论 ^^ 来帮助下载。您是否查看 RpsiXML 是否有架构?
-
@user20650 是的,我对这个包很熟悉,这些包中的大多数都是为出版而编写的,我无法进入它们。但是,我非常感谢您的大力帮助,我等着看是否有人会帮助我进行解析