【发布时间】:2022-01-10 13:26:49
【问题描述】:
如果我使用:
import re
words = re.findall(r"(?u)\b\w\w+\b", "aaa, bbb ccc. ddd\naaa xxx yyy")
print(words)
print(len(words))
正如预期的那样,我得到:
['aaa', 'bbb', 'ccc', 'ddd', 'aaa', 'xxx', 'yyy']
7
现在我想修改正则表达式,以便也能够计算 2-gram 和 3-gram,同时考虑到标点符号和换行符。特别是,在这种情况下,我期望的结果是:
['aaa', 'bbb', 'ccc', 'ddd', 'aaa', 'xxx', 'yyy', 'bbb ccc', 'aaa xxx', 'xxx yyy', 'aaa xxx yyy']
11
如何修改正则表达式才能做到这一点?
【问题讨论】: