【发布时间】:2019-05-27 16:38:06
【问题描述】:
我有一个包含一些信息的文件:
1.电影ID(“:”前的第一个字符)
2.用户ID
4.用户评分
3.日期
所有元素都用“,”分隔,但电影 ID 用冒号分隔
如果我创建这样的数据框:
df=pd.read_csv('combined_data_1.txt',header = None,names['Movie_ID','User_ID','Rating','Date'])
并打印数据框,我会得到这个:
显然这是不正确的。
因此,如果您查看“Movie_ID”列,在第一行中,有一个 1:1488844。只有数字“1”(就在冒号之前)应该在“Movie_ID”列中,而不是“1:1488844”。其余的 (1488844) 应该在 User_ID 列中。
另一个问题是,并非每个“Movie_ID”列都有正确的 ID,在这种情况下,它应该是“1”,直到我找到另一个电影 ID,这也是冒号前的第一个数字。
我知道所有电影的id都遵循一个序列,即:1,2,3,4,...
我看到的另一个问题是,当我读取文件时,由于某种原因,当有冒号时会发生拆分,所以在第一行(没有拆分)之后,当出现冒号时,一行在“Movie_ID”中创建的内容仅包含,例如:“2:”,而不是第一行之类的内容。
最后,我想得到这样的东西:
但我不知道如何像这样组织。 感谢您的帮助!
【问题讨论】:
-
你是如何得到电影 id = 2, 3 的?
-
对不起,我没听懂