做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便

1 import re
2 
3 s = 'dneog1893^&&341den'
4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+"
5 data = re.sub(r1, '', s)

 

分类:

技术点:

相关文章: