【发布时间】:2022-01-27 07:02:03
【问题描述】:
我已经下载了带有英语-德语句子对的制表符分隔的 tatoeba 数据集,以在其上训练 NMT 模型。不幸的是,每一行都以各种附加信息结尾:
Go. Geh. CC-BY 2.0 (France) Attribution: tatoeba.org #2877272 (CM) & #8597805 (Roujin)
Hi. Hallo! CC-BY 2.0 (France) Attribution: tatoeba.org #538123 (CM) & #380701 (cburgmer)
如何去除文本文件中每一行第二句之后的部分?
我尝试在 python 中这样做:
for line in text:
split = line.split('CC-BY', 1)
line = split[0]
...但这没有用。我正在寻找的是一个看起来像这样的文件:
Go. Geh.
Hi. Hallo!
如有任何帮助,我将不胜感激:)
【问题讨论】:
-
在这里拆分对我来说似乎不是合乎逻辑的事情,我只会将
.find()与字符串索引/切片一起使用,例如:segment = line[:line.find('CC-BY')].rstrip() -
什么不是特别有效?如果我在 for 循环的每次迭代结束时执行
print(line),我会得到所需的输出。您是在问如何将提取的行输出到文件中?
标签: python text strip machine-translation