【发布时间】:2021-11-22 05:37:11
【问题描述】:
我有一个熊猫数据框
| index | DevType | Count |
|---|---|---|
| 1 | Developer, back-end | 3086 |
| 2 | Developer, back-end;Developer, front-end;Devel... | 2227 |
| 3 | Developer, back-end;Developer, full-stack | 1476 |
| 4 | Developer, front-end | 1401 |
| 5 | Developer, back-end;Developer, desktop or ente... | 605 |
| 6 | Developer, embedded applications or devices | 433 |
这是通过在列上应用.value_counts() 来实现的,正如您所看到的,开发人员重复了它与其他答案相结合,从这个数据框中我想创建一个可能的单词列表来计算每个单词的数量稍后重复.
我先尝试了下面的代码来查找唯一值
unqlist=list(df_new['DevType'].unique())
通过使用“unqlist”,我尝试使用以下代码分隔不同的单词
possiblewords=[]
for word in unqlist:
print(word.split(','))
possiblewords.append(word)
它不工作
【问题讨论】:
-
您可以使用
set获取列表中的所有唯一元素。如果您想将所有单词分开,则必须修改输入列表。set(devtype_list)给出结果。目前尚不清楚您要如何更改唯一列表的列表元素,但我假设您想要拆分元素?但是然后呢? -
请在 DevType 列中查看此数据集一次 insights.stackoverflow.com/survey 多个答案被推入单个单元格,我想要唯一值的计数,我尝试设置但多个答案组合在引号中,所以它不工作
-
不,您应该提供数据、示例以及您希望输出的内容。我不会为所有需要帮助的人下载文件。
-
正如@3DspatialUser 所说,您打算使用
distinct()方法执行的操作可以使用集合来实现。不过有一些事情困扰着我:在不同的字符串中有,和;。你只想要冒号作为分隔符,还是分号也一样?我实际上认为分号是您示例中的分隔符。此外,您的示例列表中有一个nan。那正确吗?不应该是None,还是我们可能在处理 numpy 或 pandas 数据结构? -
是的,我以错误的方式构建了问题,我将其删除并再次询问,谢谢您的帮助
标签: python pandas dataframe data-cleaning