【发布时间】:2018-05-23 08:22:03
【问题描述】:
我有大量杂乱的数据,我想从中提取信息。现在,我还没有找到一种方便的方法来提取信息,希望您能提供帮助。我的数据如下所示:
"\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\nChannels\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\
n\r\nDates\r\nSeptember 25th 2016 To September 26th
2016\r\n\r\n\r\nPlatform\r\nIdea\r\n\r\n\r\nCountry\r\nUnited
States\r\n\r\n\r\nRestricted Countries\r\n\r\n\t\t\t\t\t\t\t\t\tUnited
States\t\t\t\t\t\t\t\t\r\n\r\n\r\nInitial Price\r\n$0.0692\r\n\r\n\r\n"
现在,我想摆脱的是:
Channels -
Dates September 25th 2016 To September 26th 2016
Platform Idea
Country United States
Restricted Countries United States
Initial Price $0.0692
我需要对大量观察执行此任务,然后将每个变量存储为所有观察的向量。因此,我真的不需要存储变量的名称(即“平台”),而只需要存储结果(“想法”)。但要做到这一点,我需要“平台”变量名称作为“标识符”,我会假设,因为文本中变量的位置会随着观察值的变化而变化(变量的数量也是如此 - 只是略有不同)。
现在,我认为 stringr 包是一个很好的方法来做到这一点,但我还没有找到一个方便的方法来做到这一点。
【问题讨论】:
标签: r regex string web-scraping stringr