【发布时间】:2019-10-30 14:35:14
【问题描述】:
我正在处理 CSV 文件,并且我有一个计算文档之间相似度的代码。帖子1提供数据和输出的代码和细节如下:
data.csv 看起来像:
idx messages
112 I have a car and it is blue
114 I have a bike and it is red
115 I don't have any car
117 I don't have any bike
输出是:
id 112 114 115 117
id
112 100.0 78.0 51.0 50.0
114 78.0 100.0 47.0 54.0
115 51.0 47.0 100.0 83.0
117 50.0 54.0 83.0 100.0
现在我想在没有身份数据 (100.0) 的情况下计算相似度矩阵的下三角的均值和标准差(因为上下都相似)。
我尝试使用 panda 内置的 mean 和 std as:
df_std = df.std()
df_Mean = df.mean()
但这会考虑输出中的所有数据,例如身份和上三角。
我想知道是否有任何方法可以按照我提到的方式计算平均值和标准差。
【问题讨论】:
-
你的预期输出是什么
标签: python pandas numpy dataframe similarity