1、DCG
例子: 文章库内有4个文章 d1、d2、d3、d4。针对查询Q,每个文档的打分分别为:d1=0分、d2=1分、d3=2分、d4=2分。
查询Q在系统S中返回的结果顺序为: d3、d2、d4、d1。
解:DCG公式为:DCGRF=∑log2(1+ranki)scorei
查询的顺序与分数为:d3(2分)、d2(1分)、d4(2分)、d1(0分)
所以 DCGRF=log222+log231+log242+log250=4.584
2、NDCG
例子(同上): 文章库内有4个文章 d1、d2、d3、d4。针对查询Q,每个文档的打分分别为:d1=0分、d2=1分、d3=2分、d4=2分。
查询Q在系统S中返回的结果顺序为: d3、d2、d4、d1。
解:NDCG公式为:NDCG=IDCGDCGRF
DCG公式为 DCGRF=∑log2(1+ranki)scorei
IDCG为Grund Truth即最理想的查询结果: IDCG=∑log2(1+ranki)GTi
查询的顺序与分数为:d3(2分)、d2(1分)、d4(2分)、d1(0分)
所以 DCGRF=log222+log231+log242+log250=4.584
IDCG=log222+log232+log241+log250=7.170
综上: NDCG=IDCGDCGRF=7.1704.584=0.639
3、ROC与AUC


A为Ground-Truth B为predict
正确率 Accuracy=TP+TN+FP+FNTP+FN=UU−A∩B+A∩B
召回率 Recall=TP+TNTP=AA∩B
精准度 Precision=TP+FPTP=BA∩B
F1-Score F1=Precision+Recall2∗Precision∗Recall
假阳率(ROC曲线X轴) FPR=FP+TNFP
真阳率(ROC曲线Y轴) TPR=TP+FNTP

AUC就是曲线右下部分面积。
4、BM25
BM25公式 Score(Q,d)=∑inWi∗R(Qi,d)
其中: Q是Query。Qi 表示语素(切词后的语素,与词典库对应。如Q=保定驴肉火烧哪家强? Q0=保定,Q1=驴肉)。Wi表示: 语素Qi的权重,通常与TF-IDF排序成正相关。