【发布时间】:2019-05-02 11:43:12
【问题描述】:
我正在尝试拟合这些数据:
[['Manufacturer: Hyundai',
'Model: Tucson',
'Mileage: 258000 km',
'Registered: 07/2019'],
['Manufacturer: Mazda',
'Model: 6',
'Year: 2014',
'Registered: 07/2019']]
到熊猫数据框。
并非所有标签都出现在每条记录中,例如,一些记录有“里程”,而另一些则没有,反之亦然。 我一共有 26 个功能,很少有项目具备所有这些功能。
我想构建将在列中保存特征的 pandas DataFrame,如果特征不存在,则内容应该是“NaN”。
我有
colnames=['Manufacturer', 'Model', 'Mileage', 'Registered', 'Year'...(all 26 features here)]
df = pd.read_csv("./data/output.csv", sep=",", names=colnames, header=None)
很少有第一个先决条件列提供预期的输出,但是当涉及可选功能时,比缺失数据导致之后的功能出现在错误的列下。 仅当所有要素都存在时,记录才会正确映射。
我忘了提到一些缺失值的特征也没有“:”但存在于列表中。 所以在这两种情况下:
- “里程”,(缺少值,但也缺少“:”)
- 总记录中缺少“里程”
这两种情况的赋值都应该是“NaN”。
【问题讨论】:
标签: python python-3.x pandas list dictionary