【发布时间】:2018-02-23 13:40:21
【问题描述】:
我正在使用 gensim 在分配给特定人员的文档上训练 Doc2Vec 模型。有 1000 万份文件和 8000 人。我不在乎所有 8,000 人。我关心特定的一群人(比如从 1 到 500 人)。
我感兴趣的人可能每天都在变化,但我永远不需要查看全部人口。最终目标是得到我感兴趣的人的结果向量。我目前每次都在分配给特定人的文档上训练模型。
我应该在所有 1000 万份文档上训练模型吗?或者我应该只在分配给我感兴趣的人的文档上训练模型?如果在所有 1000 万个文档上训练它很重要,那么我将如何仅为我感兴趣的人获取向量?
【问题讨论】:
-
这完全取决于你想用这些向量做什么。你想预测一个给定向量的人吗?
-
不,我只是想把指定人的向量输入到TensorBoard中做高维可视化,看看向量之间的距离(即自然簇)
-
一个人需要一个向量还是文档需要一个向量
-
每个文档一个向量。假设我有 10 个人想在某一天查看,他们总共有 20,000 份文件。我需要 20,000 个向量,然后将它们输入到 TensorBoard 并在前端进行过滤,所以我只查看特定人的向量。