【发布时间】:2020-05-20 19:23:34
【问题描述】:
我之前清理了我的数据集,我正在尝试从我的 csv 文件中计算一些变量之间的相关性。 这是我所有的专栏:
Index(['ID', 'age', 'sex', 'city', 'province', 'country', 'latitude',
'longitude', 'geo_resolution', 'date_onset_symptoms',
'date_admission_hospital', 'date_confirmation', 'symptoms',
'lives_in_Wuhan', 'travel_history_dates', 'travel_history_location',
'reported_market_exposure', 'additional_information',
'chronic_disease_binary', 'chronic_disease', 'source',
'sequence_available', 'outcome', 'date_death_or_discharge',
'notes_for_discussion', 'location', 'admin3', 'admin2', 'admin1',
'country_new', 'admin_id', 'data_moderator_initials',
'travel_history_binary'],
dtype='object')
- 我通过执行 df.corr 计算了相关性,得到了以下输出:
latitude longitude chronic_disease_binary admin_id
latitude 1.000000 0.180020 -0.027188 0.172725
longitude 0.180020 1.000000 0.016198 0.242909
chronic_disease_binary -0.027188 0.016198 1.000000 -0.007604
admin_id 0.172725 0.242909 -0.007604 1.000000
我试图计算性别和纬度之间的相关性,以了解为什么我不能拥有所有列并且出现转换错误:
TypeError: /: 'str' 和 'int' 的操作数类型不受支持
如何计算所有变量之间的相关性?
【问题讨论】:
-
其中一列是字符串类型。您无法关联字符串和整数类型的特征。
标签: python pandas data-science correlation