做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便
1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub(r1, '', s)
做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便
1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub(r1, '', s)
相关文章: