【发布时间】:2020-07-24 10:45:05
【问题描述】:
我有以下 2 个数据框:
sentences = pd.read_csv(
'sentences and translations/SpaSentandEng2.csv', sep='\t')
print(sentences.head())
words = pd.read_csv(
'sentences and translations/5kWords.csv', sep='\t', header=None)
print(words.head())
输出如下:
0 Tengo que irme a dormir I have to go to sleep.
1 Simplemente no sé qué decir I just don't know what to say.
2 Yo estaba en las montañas I was in the mountains.
3 No sé si tengo tiempo I don't know if I have the time.
4 La educación en este mundo me decepciona Education in this world disappoints me.
0 1
0 de 17177
1 no 15397
2 a 14887
3 la 14653
4 que 14446
words数据框表示句子数据框的“Spa”列中每个单词的频率。
我正在尝试通过将每个单词与一个句子及其翻译相匹配来创建一个新的数据框,例如:
spa eng word
1 estoy de acuerdo I agree de
2 no sé si tengo tiempo I don't know if I have the time sé
.
.
.
句子的开头或结尾不应包含单词,如果该句子已与另一个单词匹配,我想避免将单词与句子匹配。
我可以将单词与以下句子匹配:
sentences[sentences['Spa'].str.contains(" " +
words[0][0]+' ', regex=False, case=False, na=False)]
但是,我不知道从这里做什么。我应该如何进行?
【问题讨论】: