模型输入处理

1、构建example
为json文件里的每个word和tag构建对应的example,每个example的构成 :

  • guid:
    示例的唯一ID,比如训练集就是train-1009,测试集就是test-1009
    text_a:
  • 字符串:
    第一个序列的未标记文本(无符号的)。由于是单序列任务,仅必须指定此序列。
  • lable:
    (可选)字符串,example的标签,也就是上面的tag,只为训练集和验证集的example指定标签,但不为测试集指定。

2、构建feature
为每个example构建feature,即获取每个word的id,每个label的id,mask等信息,形式如下:
Feature包含:
bert模型相关(一)
下面展示其中一个example的feature,也就是训练集的其中一个输出:

  • token
    就是中文的字,如果是数字就是NUM表示。

  • input id

  • input mask

  • segment_ids

  • lable_ids
    其中,0是tag为“SPACE”,1是tag为",COMMA",2是tag为".PERIOD",3是tag为"?QUESTIONMARK"。

bert模型相关(一)
参考文献:https://github.com/w5688414/BERT-Punctuation-Prediction

相关文章:

  • 2021-12-14
  • 2021-11-11
  • 2021-12-15
  • 2022-12-23
  • 2021-07-16
  • 2022-01-02
猜你喜欢
  • 2021-07-25
  • 2022-01-04
  • 2021-10-08
  • 2021-05-12
  • 2021-08-02
  • 2021-11-05
相关资源
相似解决方案