【发布时间】:2019-02-27 23:08:14
【问题描述】:
我正在研究一个文本分类问题。我的 CSV 文件包含一个名为“description”的列,用于描述事件。不幸的是,除了英文单词之外,该栏还充满了特殊字符。有时一行中的整个字段都充满了这样的字符,或者有时只有几个单词是这样的特殊字符,其余的都是英文单词。我正在向您展示两个不同行的两个样本字段:
हर वर्ष की तरह इस वर्ष भी सिंधु सेना द्वारा आयोजित सिंधी प्रीमियर लीग फुटबॉल टूर्नामेंट का आयोजन एमबीएम ग्राउंड में करने जा रही है जिसमें अंडर-19 टीमें भाग लेती है आप सभी से निवेदन है समाज के युवाओं को प्रोत्साहन करने अवश्य पधारें
Unwind on the strums of Guitar & immerse your soul into the magical vibes of music! ️? ️?..Guitar Night By Ashmik Patil.July 19, 2018.Thursday.9 PM Onwards.*Cover charges applicable...#GuitarNight #MusicalNight #MagicalMusic #MusicLove #Party #Enjoy #TheBarTerminal #Mumbaikars #Mumbai
在第一种情况下,整个字段都充满了这种不可读的字符,而在第二种情况下,只有很少的这种字符存在。其余都是英文单词。
我只想删除那些保持英文单词不变的特殊字符,因为我需要这些英文单词在稍后阶段形成一个单词包。
如何用 Python 实现(我使用的是 jupyter notebook)?
【问题讨论】:
标签: python csv text-classification text-processing