Task:项目任务建立模型通过长文本数据正文,预测文本对应的类别

数据

数据包含2个csv文件,即train_set.csv和test_set.csv.
ps:因为在外条件有限,先读取前5000行数据。

train_set.csv

此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:
第一列是文章的索引(id);
第二列是文章正文在“字”级别上的表示,即字符间隔正文(article);
第三列是在“词”级别上的表示,即词语相隔正文(word_seg);
第四列是这篇文章的标注(class)。

test_set.csv

此数据用于测试。数据格式同train_set.csv,但不包含class。
注:test_set与train_test中文章id的编号是独立的。

测试集数据情况

Day1—达观杯智能文本处理

相关文章:

  • 2021-10-27
  • 2021-11-30
  • 2021-04-15
  • 2021-08-28
  • 2021-06-19
  • 2021-08-01
  • 2021-08-29
猜你喜欢
  • 2022-01-02
  • 2021-07-20
  • 2021-06-11
  • 2021-04-25
  • 2021-04-10
相关资源
相似解决方案