【发布时间】:2013-10-12 08:25:44
【问题描述】:
我有一个使用 pandas.DataFrame 的(非常大的)表。它包含来自文本的字数;索引是单词表:
one.txt third.txt two.txt
a 1 1 0
i 0 0 1
is 1 1 1
no 0 0 1
not 0 1 0
really 1 0 0
sentence 1 1 1
short 2 0 0
think 0 0 1
我想根据所有文本中单词的频率对单词表进行排序。所以我可以很容易地创建一个包含每个单词频率和的系列(使用单词作为索引)。但是我如何才能在这个列表中排序呢?
一种简单的方法是将列表作为列添加到数据框中,对其进行排序,然后将其删除。出于性能原因,我想避免这种情况。
here 描述了另外两种方式,但一种方式复制了数据框,由于其大小而存在问题,另一种方式创建了一个新索引,但我需要进一步了解这些单词的信息。
【问题讨论】: