【发布时间】:2021-10-08 06:58:38
【问题描述】:
我有一个语料库如下
Col1 | Col2 | Col3 | Col4
A B C D
D G H F
I K P Q
L M N P
目的是在每列上创建二元组并创建单列python数据框,如下所示
(A,D)
(D,I)
(I,L)
(B,G)
(G,H)
我正在遍历每一列并为每一列创建一个二元列表。如何将它们添加到数据框中。我想避免循环遍历此列表以提高性能
txn_corpus_pair=pd.DataFrame(columns=['bigram'])
for i in range(0, txn_count):
bigram_firstitem=txn_corpus.iloc[0:,i]
bigram_seconditem=txn_corpus.iloc[1:,i]
bigram_list=list(zip(bigram_firstitem,bigram_seconditem))
现在二元列表已准备好用于每一列。当我尝试一次性追加所有这些行时
txn_corpus_pair=txn_corpus_pair.append(bigram_list,ignore_index=True)
它将 bigram_list 读取为 2 个单独的列 - 并报告错误。我可以遍历列表并逐行追加,但这会非常低效。在追加完整列表方面需要帮助
【问题讨论】: