【发布时间】:2023-03-21 13:29:02
【问题描述】:
我正在尝试从 HTML 网页中抓取信息,我有直接链接,但由于某种原因无法访问相关文本。
以下是网页的两个示例:
http://151.12.58.148:8080/CPC/CPC.detail.html?A00002 http://151.12.58.148:8080/CPC/CPC.detail.html?A00003
在我阅读了 html 之后,除了相关的文本(应该从一个页面到另一个页面),我留下了所有的源代码。
例如,第一个链接给出的页面是这样的:
数据 di nascita 1872
当我在浏览器上检查时,它被编码为:
<p y:role="datasubset" y:arg="DATA_NASCITA" class="smalltitle">
<span class="celllabel">data di nascita</span>
<span y:role="multivaluedcontent" y:arg="DATA_NASCITA">1872</span>
</p>
但是,当我用我的代码阅读它时:
link <- 'http://151.12.58.148:8080/CPC/CPC.detail.html?A00002'
page <- read_html(link)
write.table(as.character(page), "page.txt")
我打印“页面”,检查我得到了什么,代码的相同部分是:
<p y:role=\"datasubset\" y:arg=\"NASCITA\" class=\"smalltitle\">
<span class=\"celllabel\">luogo di nascita</span>
<span y:role=\"multivaluedcontent\" y:arg=\"NASCITA\"></span>
</p>
没有 1872,这是我感兴趣的信息。 (也没有不确定这是否表明任何事情)。
我似乎无法绕过它,有人有建议吗? 非常感谢!
【问题讨论】:
-
那是因为实际的 HTML 源代码不包含您想要的数据。它是在加载时动态创建的。
标签: html r web-scraping css-selectors rvest