【发布时间】:2018-11-19 23:14:06
【问题描述】:
我想从这个 PDF http://medias4.fis-ski.com/pdf/2019/JP/3088/2019JP3088RL.pdf 中提取数据(跳台滑雪)
我对除了bib、俱乐部和出生日期
之外的所有数据都感兴趣我正在尝试使用 pdftools 库
pdf_text("raw/data.pdf") %>% strsplit(split = "\n")
我被困在这里。问题是列 points(门补偿)有时是空的,有时不是。我不知道如何处理。
我想要的输出是这样的:
Rank|Athlete |Nation|(...)|Jump_1|Round_1|Jump_2|Round_2|Tot_points
1 |KLIMOV Evgeniy|RUS |(...)|127.5 |130 |131.5 |133.4 |263.4
谁能帮帮我?
【问题讨论】:
标签: r pdf web-scraping screen-scraping