【发布时间】:2021-07-26 14:24:15
【问题描述】:
如何将文本拆分成单词?
示例文本:
'哦,你没办法,'猫说:'我们都疯了。我生气了。你疯了。'
该行中的单词是:
- 哦
- 你
- 不能
- 帮助
- 那个
- 说
- 猫
- 我们是
- 全部
- 疯了
- 这里
- 我是
- 疯了
- 你是
- 疯了
【问题讨论】:
-
我的建议:首先定义一个明确的词法语法,然后为该语法编写一个词法分析器,生成一系列标记。然后拒绝没有被引入“单词”产生的标记。这不是正则表达式的工作。
-
我真的很喜欢 Eric 的回复。我知道我参加聚会有点晚了,但这是最好的方式。
-
我收集了上面所有的 delimiter 并且发现了类似这样的结果。Split({ " '" , " " , ",'" , ": '" , "." , ".'" }, StringSplitOptions.RemoveEmptyEntries);