【发布时间】:2020-03-28 08:49:56
【问题描述】:
我正在尝试在 python 中加载文件。如果您运行以下代码并加载仅包含英文单词的文件,它将正常加载。
Listado.txt 是一个西班牙语文件,其中包含以下单词:abacá, abadí, abadía, abajeño, abaniquería
西班牙语包含重音字母(例如 é)或特殊字符(变音符号),这就是问题所在,当我尝试将此文件加载到 Python 时它会抱怨。我希望能够规范化列表,或删除重音字符并加载列表。
我尝试过使用 :
进行标准化unicodedata.normalize('NFD', line).encode('ascii', 'ignore')
我收到以下错误:
TypeError: normalize() argument 2 must be str, not list
到目前为止的代码:
import random
import string
import unicodedata
#WORDLIST_FILENAME = "words_alpha.txt"
WORDLIST_FILENAME = "listado.txt"
def loadWords():
print("Loading word list from file...")
# inFile: file
inFile = open(WORDLIST_FILENAME, 'r')
wordlist =[]
for line in inFile:
line = line.split()
wordlist.extend(line)
# unicodedata.normalize('NFD', line).encode('ascii', 'ignore')
print(" "), len(wordlist), ("words loaded.")
return wordlist
【问题讨论】:
标签: python python-3.x string list normalization