【发布时间】:2020-09-12 18:53:38
【问题描述】:
我正在尝试从以下链接读取 xml 数据:
https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt
当我使用 rvest 包中的 read_xml 时
link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_xml(link)
我收到一个错误:
“read_xml.raw 中的错误(raw, encoding = encoding, base_url = base_url, as_html = as_html, : 开始和结束标签不匹配:ACCEPTANCE-DATETIME 第 3 行和 SEC-HEADER [76]"
有没有办法读取这个文本文件并提取某些 xml 标签?
提前致谢!
【问题讨论】: