【发布时间】:2016-09-27 07:19:06
【问题描述】:
我有一个已抓取的数据集,但也包含其中包含大量垃圾的条目。
Name: sdfsdfsdfsd
Location: asdfdgdfjkgdsfjs
Education: Science & Literature
目前它存储在 MySQL 和 Solr 中。
是否有任何图书馆可以在这些字段中查找英文单词,以便我可以消除垃圾值?我相信它需要一个字典,并且 /usr/share/dict/ 中的默认 unix 字典对于这个用例来说似乎已经足够了。
【问题讨论】:
标签: java python mysql dictionary data-cleaning