【发布时间】:2020-11-15 10:10:25
【问题描述】:
我在 Python 中使用 pdfminer.six 来提取长文本数据。不幸的是,Miner 并不总是能很好地工作,尤其是在段落和文本换行方面。例如我得到以下输出:
"2018Annual ReportInvesting for Growth and Market LeadershipOur CEO will provide you with all further details below."
--> "2018 Annual Report Investing for Growth and Market Leadership Our CEO will provide you with all further details below."
现在我想在小写字母后跟一个大写字母然后是一个小写字母(以及数字)时插入一个空格。所以最后"2018Annual"变成"2018 Annual"和"ReportInvesting"变成"Report Investing",但是"...CEO..."仍然是"...CEO..."。
我只找到了Split a string at uppercase letters 和https://stackoverflow.com/a/3216204/14635557 的解决方案,但无法重写。不幸的是,我是 Python 领域的新手。
【问题讨论】:
-
即使是 Python 编码新手,您仍然应该尝试一些编码并在寻求解决方案之前发布您尝试过的内容
-
明白了,下次会努力改进的
标签: python split text-mining uppercase