【发布时间】:2019-04-10 15:37:27
【问题描述】:
我一直在尝试从一个大型 medline 数据文件中提取大约 9000 个 DOI。这些标识符的格式为“10.1*****/**************.”,总是以空格结尾,因此字符串的开头总是“10.1”并以空格结尾。我正在使用 sublime 文本编辑器。
我的最终目标是删除其他所有内容,因此我希望每个 DOI 代码都有一个带有换行符的文本文件。
从我的数据中提取
AID - 10.1111/acps.12913 [doi]
SO - Acta Psychiatr Scand. 2018 Dec;138(6):492-499. doi: 10.1111/acps.12913. Epub 2018
LID - 10.1177/0284185118764209 [doi]
AID - 10.1177/0284185118764209 [doi]
SO - Acta Radiol. 2018 Dec;59(12):1438-1445. doi: 10.1177/0284185118764209. Epub 2018
LID - 10.1007/s00018-018-2873-1 [doi]
AID - 10.1007/s00018-018-2873-1 [doi]
SO - Cell Mol Life Sci. 2018 Dec;75(23):4301-4319. doi: 10.1007/s00018-018-2873-1.
LID - 10.1097/EJA.0000000000000889 [doi]
AID - 10.1097/EJA.0000000000000889 [doi]
SO - Eur J Anaesthesiol. 2018 Dec;35(12):949-954. doi: 10.1097/EJA.0000000000000889.
LID - 10.1097/CMR.0000000000000479 [doi]
AID - 10.1097/CMR.0000000000000479 [doi]
因此,对于“99.doi: 10.1111/acps.12913.Epub 2018”,我想保留“10.1111/acps.12913”
先谢谢了!
【问题讨论】:
-
您实际使用的是什么正则表达式工具?
-
崇高的文本编辑器,但我可以使用最合适的任何东西!
标签: regex