Python电影数据分析

数据说明：MovieLens数据集，它包含来自于943个用户以及精选的1682部电影的100K个电影打分。每个用户至少为20部电影打分，数据类型user id | item id | rating | timestamp.

地址：https://grouplens.org/datasets/movielens/

1、引入pandas,numpy包

2、读取数据：首先，文件如果不在默认路径下，需要更改路径，使用下面两行命令，另外要注意正反斜杠的应用。

os.getcwd()

os.chdir("新的路径")

3、由于数据包含了打分数据，用户数据，但在两个文件里，因此需要合并。首先，使用header=[\'l列名1\',\'列名2\'.....]格式给两个文件添加列名

然后数据合并

结果：

将文件转换成字典类型，并按照列名读取两列

数据统计分析，data.describe()