【发布时间】:2021-01-06 17:30:36
【问题描述】:
拥有这个数据集:
>cleaned['text']
0 [we, have, a, month, open, #postdoc, position,...
1 [the, hardworking, biofuel, producers, in, iow...
2 [the, hardworking, biofuel, producers, in, iow...
3 [in, today, s, time, it, is, imperative, to, r...
4 [special, thanks, to, gaetanos, beach, club, o...
...
130736 [demand, gw, sources, fossil, fuels, renewable...
130737 [there, s, just, not, enough, to, go, round]
130738 [the, answer, to, deforestation, lies, in, space]
130739 [d, filament, from, plastic, waste, regrind, o...
130740 [gb, grid, is, generating, gw, out, of, gw]
Name: text, Length: 130741, dtype: object
有没有一种简单的方法来阻止所有单词?
【问题讨论】:
-
您的意思是取
demand并推断出英语匹配项,如demanding、demanded、demands等? -
例如,数据集包含单词“car”和“cars”。我希望它们都一样。
-
你要求的很困难。英语没有容易允许的常规形式。查看该问题的一些相关链接以获得几个近似值。
-
实际上,在 R 中这很容易做到,所以我想有一种方法可以做到这一点。说白了,我猜这样的算法会修剪有许多共同字母的单词。