【发布时间】:2011-11-03 13:23:19
【问题描述】:
我希望将文本拆分成句子。谁能帮帮我?
我还需要处理缩写。但是我的计划是在更早的阶段替换这些。先生->先生
import re
import unittest
class Sentences:
def __init__(self,text):
self.sentences = tuple(re.split("[.!?]\s", text))
class TestSentences(unittest.TestCase):
def testFullStop(self):
self.assertEquals(Sentences("X. X.").sentences, ("X.","X."))
def testQuestion(self):
self.assertEquals(Sentences("X? X?").sentences, ("X?","X?"))
def testExclaimation(self):
self.assertEquals(Sentences("X! X!").sentences, ("X!","X!"))
def testMixed(self):
self.assertEquals(Sentences("X! X? X! X.").sentences, ("X!", "X?", "X!", "X."))
谢谢, 巴里
编辑:首先,我很乐意满足上面包含的四个测试。这将帮助我更好地理解正则表达式是如何工作的。现在我可以将一个句子定义为 X. 等,就像我的测试中定义的那样。
【问题讨论】:
-
也许你应该描述你认为的句子。
标签: python regex python-3.x text-segmentation