【发布时间】:2021-12-25 15:02:19
【问题描述】:
我有一个文本文件,我想处理一些 NLP 任务。但我正在处理本地语言。该文件包含大量英文单词和标点符号。我想从那个文本文件中去掉所有的拉丁文和其他标点符号。使用 Jupyter 笔记本如何实现这一点 TIA
【问题讨论】:
-
请提供足够的代码,以便其他人更好地理解或重现问题。
我有一个文本文件,我想处理一些 NLP 任务。但我正在处理本地语言。该文件包含大量英文单词和标点符号。我想从那个文本文件中去掉所有的拉丁文和其他标点符号。使用 Jupyter 笔记本如何实现这一点 TIA
【问题讨论】:
当然,您只需使用 Python 即可完成此操作
text = "Hello, World!!"
# put everything you wish to filter out in this list
filterList = [',', '!']
filteredList = filter(lambda c: c not in filterList, text)
print(''.join(filteredList))
会给Hello World
【讨论】: