【发布时间】:2015-10-28 06:44:06
【问题描述】:
我有一个文本(字符串),我想在 python 中执行此任务:
我执行 CountVectorizer 方法是为了制作一个词袋。你可以在这里找到这个方法:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
此方法包括 stopWords 删除,它工作正常。它删除任何标点符号并打破每个单词。但是除了单词之外,它还会返回很多垃圾,例如单个字母和数字。
不过,这种方法有一个名为“token_pattern”的参数,它采用一个字符串(正则表达式),可以给我更好的结果。
我想做的是: a) 排除任何以数字开头、结尾或包含数字的词。 b) 排除文本中的任何数字 c) 排除 any 字词
例如,这个正则表达式应该给我这个:
text = "乘坐 Fido 兜风可能很危险:http://t.co/eR2WfAnZBIhttp://t.co/RF3bhPNPwR',平均每年,卡车会产生 200 亿英里的空驶里程,这花费了经济数十亿”
final_text = “每年平均乘坐 Fido 行驶数十亿英里的卡车会造成数十亿美元的经济损失”
提前感谢您的时间和关注 :)
【问题讨论】:
-
你能展示一下你到目前为止所做的尝试吗?