【发布时间】:2019-05-27 19:15:32
【问题描述】:
我有一个文本文件,我从中删除了符号和停用词。
我还对其进行了标记(将其分解为所有单词的列表),以防使用列表更容易操作。
我想创建一个.csv 文件,其中所有单词(长格式)的频率按降序排列。我该怎么办?
我曾想过这样循环遍历列表:
longData = pandas.DataFrame([], index=[], columns=['Frequency'])
for word in tokenizedFile:
if word in longData.index:
longData.loc[word]=longData.loc[word]+1
else:
wordFrame = pandas.DataFrame([1], index=[word])
longData.append(wordFrame)
但这似乎非常低效和浪费。
【问题讨论】:
-
您的解决方案有效吗?
-
在这里大声思考,但我认为:
words =list(set(toknizedFile)),然后是tokens = np.asarray(tokenizedFile),然后你迭代 (for word in words:) 并计算每个单词的实例数num_instances = length(np.where(tokens == word))你可以开始制作字典或一个 df 来存储每个单词的实例数
标签: python python-3.x pandas text nltk