【发布时间】:2018-03-24 23:18:28
【问题描述】:
假设我有一个包含如下列的 excel 文件:
Name Day of Shopping Food bought
Bob March 14, 2015 Apple
Bob March 14, 2015 Pear
Joe April 15, 2013 Apple
Bob June 28, 2017 Pomegranite
Jake January 4, 2008 Orange
Jake April 9, 2010 Peach
Joe December 6, 2016 Banana
还有另一个excel文件,内容如下:
Name Day of Shopping Drink bought
Bob March 14, 2015 Water
Joe April 15, 2013 Juice
Bob June 28, 2017 Soda
Jake January 4, 2008 Water
Jake April 9, 2010 Tea
Joe December 6, 2016 Soda
我想要做的是把它变成一个新的 excel 表,或者只是一个矩阵,上面写着:
Name Apple Pear Pomegranite Orange Peach Banana Water Juice Soda Tea
Bob 1 1 0 0 0 0 1 0 0 0
Joe 1 0 0 0 0 0 0 1 0 0
Jake 0 0 0 1 0 0 1 0 0 0
所以最后我得到了一个包含名称的矩阵,以下列列出了食物选项和分配名称的值(1 或 0)用于确定该项目是否是为此购买的天。请注意,在我上面描述的矩阵中,即使每个人的初始日期不同,也只找到了第一个日期的值。更多列将描述其他日期。
请帮忙。
【问题讨论】:
-
“excel 文件”是什么意思?比如,
.xls文件,还是只是一个 csv? -
我的意思是它包含在 .xlsx 中,但我可以将其保存为 .xls 或 csv
标签: python excel pandas dataframe feature-extraction