【发布时间】:2018-06-26 16:40:56
【问题描述】:
我有一个重复几千次的基本格式的文本文件:
Patient Name- John Smith
Number of dx codes: 123
Number of pr codes: 678
Charges: 910
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Duis arcu ipsum, ultrices placerat mattis ac, venenatis eu magna.
Donec interdum iaculis lacus. Nunc in placerat augue.
In ut odio et dui aliquam sagittis at id augue.
Patient Name- Jane Smith
Number of dx codes: 234
Number of pr codes: 567
Charges: 1011
我怎样才能最好地将上面的文本转换成以下格式
Patient Name DxCodes PrCodes Charges
John Smith 123 678 910
Jane Smith 234 567 1011
我已经能够使用 stringi 包中的 str_extract 将所有患者姓名提取到一个数据帧中,并将 DxCodes、PrCodes 和 Charges 提取到另一个数据帧中:
Names
John Smith
Jane Smith
和
Number of dx codes: 123
Number of pr codes: 678
Charges: 910
Number of dx codes: 234
Number of pr codes: 567
Charges: 1011
但不确定如何继续将上述两个数据帧转换为所需的格式?我应该从一开始就使用不同的方法吗? 肯定会感谢任何帮助。谢谢!
【问题讨论】:
-
请包含您一直在使用的代码,以便其他人可以提供帮助
-
“患者姓名”是否始终是每个所需块开头的第一个字符串? “Charges”是否总是每个所需块的最后一行的第一个字符串?
-
没错。对于每个块,每行的顺序和第一个字符串始终相同。