1、DCG

例子: 文章库内有4个文章 d1d_1d2d_2d3d_3d4d_4。针对查询Q,每个文档的打分分别为:d1=0d_1=0分d2=1d_2=1分d3=2d_3=2分d4=2d_4=2分
查询Q在系统S中返回的结果顺序为: d3d_3d2d_2d4d_4d1d_1

:DCG公式为:DCGRF=scoreilog2(1+ranki)DCG_{RF}=\sum \frac{score_i}{log_2{(1+rank_i)}}
查询的顺序与分数为:d3(2)d_3(2分)d2(1)d_2(1分)d4(2)d_4(2分)d1(0)d_1(0分)
所以 DCGRF=2log22+1log23+2log24+0log25=4.584DCG_{RF}=\frac{2}{log_2{2}} + \frac{1}{log_2{3}} + \frac{2}{log_2{4}} + \frac{0}{log_2{5}} = 4.584

2、NDCG

例子(同上): 文章库内有4个文章 d1d_1d2d_2d3d_3d4d_4。针对查询Q,每个文档的打分分别为:d1=0d_1=0分d2=1d_2=1分d3=2d_3=2分d4=2d_4=2分
查询Q在系统S中返回的结果顺序为: d3d_3d2d_2d4d_4d1d_1

:NDCG公式为:NDCG=DCGRFIDCGNDCG=\frac{DCG_{RF}}{IDCG}
DCG公式为 DCGRF=scoreilog2(1+ranki)DCG_{RF}=\sum \frac{score_i}{log_2{(1+rank_i)}}
IDCG为Grund Truth即最理想的查询结果: IDCG=GTilog2(1+ranki)IDCG=\sum \frac{GT_i}{log_2{(1+rank_i)}}
查询的顺序与分数为:d3(2)d_3(2分)d2(1)d_2(1分)d4(2)d_4(2分)d1(0)d_1(0分)
所以 DCGRF=2log22+1log23+2log24+0log25=4.584DCG_{RF}=\frac{2}{log_2{2}} + \frac{1}{log_2{3}} + \frac{2}{log_2{4}} + \frac{0}{log_2{5}} = 4.584
IDCG=2log22+2log23+1log24+0log25=7.170IDCG=\frac{2}{log_2{2}} + \frac{2}{log_2{3}} + \frac{1}{log_2{4}} + \frac{0}{log_2{5}} = 7.170
综上: NDCG=DCGRFIDCG=4.5847.170=0.639NDCG=\frac{DCG_{RF}}{IDCG}=\frac{4.584}{7.170}=0.639

3、ROC与AUC

信息检索 DCG、NDCG、AUC、BM25、F1-Score
信息检索 DCG、NDCG、AUC、BM25、F1-Score
A为Ground-Truth B为predict
正确率 Accuracy=TP+FNTP+TN+FP+FN=UAB+ABUAccuracy=\frac{TP+FN}{TP+TN+FP+FN}=\frac{U-A\cap{B}+A\cap{B}}{U}

召回率 Recall=TPTP+TN=ABARecall=\frac{TP}{TP+TN}=\frac{A\cap{B}}{A}

精准度 Precision=TPTP+FP=ABBPrecision=\frac{TP}{TP+FP}=\frac{A\cap{B}}{B}

F1-Score F1=2PrecisionRecallPrecision+RecallF1=\frac{2*Precision*Recall}{Precision+Recall}

假阳率(ROC曲线X轴) FPR=FPFP+TNFPR=\frac{FP}{FP+TN}

真阳率(ROC曲线Y轴) TPR=TPTP+FNTPR=\frac{TP}{TP+FN}

信息检索 DCG、NDCG、AUC、BM25、F1-Score
AUC就是曲线右下部分面积。

4、BM25

BM25公式 Score(Q,d)=inWiR(Qi,d)Score(Q, d)=\sum_{i}^{n} W_i * R(Q_i,d)

其中: Q是Query。QiQ_i 表示语素(切词后的语素,与词典库对应。如Q=保定驴肉火烧哪家强? Q0Q_0=保定,Q1Q_1=驴肉)。WiW_i表示: 语素QiQ_i的权重,通常与TF-IDF排序成正相关。

相关文章:

  • 2022-01-17
  • 2021-04-16
  • 2022-01-30
  • 2022-01-10
  • 2021-11-29
  • 2021-06-27
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-11-29
  • 2021-06-26
  • 2021-05-28
  • 2021-11-13
  • 2021-06-29
  • 2022-01-21
相关资源
相似解决方案