【发布时间】:2022-06-11 02:15:48
【问题描述】:
我使用了 512 维的 bert 基础预训练模型来生成上下文特征。将这些向量提供给随机森林分类器可以提供 83% 的准确率,但在各种研究中,我发现 bert minimum 可以提供 90% 的准确率。 我还有一些其他功能,例如 word2vec、词典、TFIDF 和标点符号功能。 即使我合并了所有特征,我也得到了 83% 的准确率。我用作基础论文的研究论文提到了 92% 的准确度得分,但他们使用了基于集成的方法,在该方法中,他们通过 bert 进行分类,并训练了权重上的随机森林。 但我愿意做一些创新,因此没有遵循这种方法。 我的数据集偏向于正面评价,因此根据我的说法,准确性较低,因为模型也偏向于正面标签,但我仍在寻找专家建议
bert的代码实现
https://github.com/Awais-mohammad/Sentiment-Analysis/blob/main/Bert_Features.ipynb
独立于所有特征的随机森林
https://github.com/Awais-mohammad/Sentiment-Analysis/blob/main/RandomForestClassifier.ipynb
所有特征的随机森林联合
https://github.com/Awais-mohammad/Sentiment-Analysis/blob/main/Merging_Feature.ipynb
【问题讨论】:
标签: machine-learning nlp data-science classification bert-language-model