【发布时间】:2023-12-12 00:58:01
【问题描述】:
我正在使用 deeplearning4j java 库来构建 100 维的段落向量模型 (doc2vec)。我正在使用文本文件。它有大约 1700 万行,文件大小为 330 MB。 我可以训练模型并计算段落向量,得到相当好的结果。
问题是,当我尝试使用 WordVectorSerializer.writeParagraphVectors(dl4j 方法)保存模型(通过写入磁盘)时,它需要大约 20 GB 的空间。当我使用本机 java 序列化程序时,大约 30GB。
我在想可能是模型对于这么多数据来说太大了。对于 300 MB 的文本数据,模型大小 20GB 是否合理?
也欢迎在其他库/语言中使用过 doc2vec/paragraph 向量的人发表评论。
谢谢!
【问题讨论】:
标签: nlp gensim word-embedding doc2vec deeplearning4j