【发布时间】:2021-01-13 22:59:53
【问题描述】:
我正在通过一个私人 Covid-Project 深入研究 R: http://members.chello.at/charmingquark/Covid19_Report_v2.1.html
现在我尝试用从这个网站上用rvest 刮掉的一些数字来扩展收集到的信息:
https://info.gesundheitsministerium.gv.at/
在第一步中,我想获取显示为文本的数字,然后是地图中的数字: numbers - info.gesundheitsministerium.gv.at/
我浏览了一些教程并测试了一个视图,一切都解决了,但在这种情况下,我只是回到零......
cov_impf_db_url <- read_html("https://info.gesundheitsministerium.gv.at/")
cov_impf_db_url %>%
html_nodes(".text-5xl.tabular-nums") %>%
html_text()
导致
[1] "0" "0" "0"
如果我只是使用
cov_impf_db_url %>%
html_nodes(".text-5xl.tabular-nums")
我明白了
{xml_nodeset (3)}
[1] <p class="text-5xl tabular-nums" id="Vaccinations">0</p>
[2] <p class="text-5xl tabular-nums" id="estimatedVaccinations">0</p>
[3] <p class="text-5xl tabular-nums" id="deliveredVaccinations">0</p>
拟合之前的输出但是当我查看网站时有一个不是“0”的值,例如:
<p class="text-5xl tabular-nums" id="Vaccinations">63.280</p>
我刚开始使用 rvest,从未使用过 html,所以我有点迷茫,并感谢任何提示。
谢谢,
c|q
刚刚通过这篇文章找到了一个替代方案: rvest web scraping with javascript
后台有 2 个 csv 文件: https://info.gesundheitsministerium.gv.at/data/laender.csv https://info.gesundheitsministerium.gv.at/data/national.csv
我将处理这些问题,但仍会对原始问题的解决方案感兴趣... 谢谢
【问题讨论】:
-
这些数字是使用javascript动态插入到页面中的,所以
rvest在这里不起作用。您找到的解决方案是好方法。您可以将其添加为下面的答案。
标签: r web-scraping rvest