【发布时间】:2019-06-24 06:43:05
【问题描述】:
我正在测试一个机器学习模型,需要合并我的文本以剪切我的音频文件并训练模型。如何使用条件合并文本?
我的目标是合并“文本”列中的文本,直到我到达一个结束标点以形成一个句子。我想继续形成句子,直到到达文本文件的末尾。
我尝试过使用 pandas groupby。
df.groupby(['Name','Speaker','StTime','EnTime'])['Text'].apply(' '.join).reset_index()
Example:
Name Speaker StTime Text EnTime
s1 tom 6.8 I would say 7.3
s1 tom 7.3 7.6
s1 tom 7.6 leap frog 8.3
s1 tom 8.3 9.2
s1 tom 9.2 a pig. 10.1
Name Speaker StTime Text EnTime
s1 tom 6.8 I would say leap frog a pig. 10.1
【问题讨论】:
-
df.groupby(['Name','Speaker'])['Text'].apply(' '.join).reset_index(),从 groupby 中删除另外 2 个 cols -
在
Text列中没有值是NaNs ?还是空字符串? -
@jezrael 没有值的文本列是空字符串。
-
好的,每个 Name 和 Speaker 列只有一个句子吗?还是可能有多个?
-
@jezrael 每个名称和说话者列总是一个句子。
标签: python pandas pandas-groupby data-cleaning data-processing