【发布时间】:2013-05-13 22:42:43
【问题描述】:
我通过 twitter api 收集了一些推文。然后我在python中使用split(' ')计算了单词。但是,有些词看起来是这样的:
correct!
correct.
,correct
blah"
...
那么我怎样才能在没有标点符号的情况下格式化推文呢?或者也许我应该尝试另一种方式来split 推文?谢谢。
【问题讨论】:
-
任何使用
string.punctuation的简单解决方案无疑都会混淆表情符号和其他特殊字符序列。如果您关心这一点,您应该考虑为推文使用标记器构建。
标签: python regex string twitter split