【发布时间】:2023-09-30 15:35:01
【问题描述】:
我正在尝试在一个问题上实现 word2vec。我将简要解释我的问题陈述:
我正在处理临床数据。我想根据一组症状预测前 N 种疾病。
Patient1: ['fever', 'loss of appetite', 'cold', '#flu#']
Patient2: ['hair loss', 'blood pressure', '#thyroid']
Patient3: ['hair loss', 'blood pressure', '#flu]
..
..
Patient30000: ['vomiting', 'nausea', '#diarrohea']
注意: 1.带有#prefix的单词是诊断,其余是症状
- 我的语料库没有任何句子或段落。它仅包含患者的症状名称和诊断
在这个语料库上应用 word2vec,我能够在给定一组输入症状的情况下生成前 10 个诊断。现在,我想了解该输出是如何生成的。我通过添加输入向量知道这是余弦相似度,但我无法验证此输出。或者了解如何改进这一点。真的很想了解导致这些输出的后台到底发生了什么。
谁能帮我回答这些问题或强调这种方法的缺点/优点是什么
【问题讨论】:
标签: python nlp gensim word2vec word-embedding