第一步:读取三个表数据(用户表、评分表、电影表)
mnames=[\'MovieID\',\'Title\',\'Genres\']
user_data = pd.read_table(r".\datas\movielens-1m\users.dat", sep=\'::\', header=None, names=unames)
movie_data = pd.read_table(r".\datas\movielens-1m\movies.dat", sep=\'::\', header=None, names=mnames)
Rnames=[\'UserID\',\'MovieID\',\'Rating\',\'Timestamp\']
rating_data = pd.read_table(r".\datas\movielens-1m\ratings.dat", sep=\'::\', header=None, names=Rnames)
第二步:将三张表合并
根据共同的UserID进行合并,合并类型为outer,完成三张表的合并
user_rating=pd.merge(user_data,rating_data,left_on=\'UserID\',right_on=\'UserID\',how=\'outer\')
根据共同的MovieID进行合并,合并类型为outer,完成第三张表合并
data=pd.merge(user_rating,movie_data,left_on=\'MovieID\',right_on=\'MovieID\',how=\'outer\')
第三步:完成各项需求
找到因性别,导致评价差异最大的电影。