【发布时间】:2018-07-26 14:45:08
【问题描述】:
我正在处理一个数据集。它的第一行如下所示:
Column1 Column2
1 [食物=3,派对=2,....] 2 [海洋=2, 鱼=3, 冲浪=2,....] . ..................... . ..................... . .....(第 1 列有序列号,第 2 列有频率单词列表。)
每一行都有多个单词,它们各自的频率。
我想将 column2 转换如下:
[食物,食物,食物,聚会,聚会.....]等等。
我觉得很难,不知道从哪里开始。我尝试了标记化,但不知道如何继续。
【问题讨论】:
-
你的数据格式是什么?那是字符串列表吗?数据框?字典?
-
这是一个熊猫数据框
-
那么请相应地表示您的数据。不清楚“food”和“party”是列名还是字段值。
-
您好,已更改。很抱歉给您带来不便。