【发布时间】:2017-04-10 21:03:46
【问题描述】:
关于 mallet 中的模型输出选项:
--output-model [FILENAME]
--output-state [FILENAME]
--output-doc-topics [FILENAME]
--output-topic-keys [FILENAME]
文本文件是否有规范(哪一列对应哪个值),超出this一般描述。
【问题讨论】:
标签: mallet
关于 mallet 中的模型输出选项:
--output-model [FILENAME]
--output-state [FILENAME]
--output-doc-topics [FILENAME]
--output-topic-keys [FILENAME]
文本文件是否有规范(哪一列对应哪个值),超出this一般描述。
【问题讨论】:
标签: mallet
这2个文件的输出格式
--output-doc-topics [FILENAME]
--output-topic-keys [FILENAME]
是一个 csv 文件(文本文件中的制表符分隔值)。阅读这两个文件中发生的事情真的很容易;有点不寻常的是,主题按强度排序,主题编号是 doc-topics 文件的必要部分。
前两个文件
--output-model [FILENAME]
--output-state [FILENAME]
是“Java 序列化数据,版本 5”(UNIX file 命令的输出);我不知道有关详细信息的更深入的文档。
【讨论】:
如果您发现有用的内容,请编辑!
--output-topic-keys第一列是主题ID号,对应每个标签最初出现在训练数据中的原始顺序。第二列是标签字符串。第三列是在我们停止的特定 Gibbs 采样状态下分配给该主题的令牌总数。最后一列是由空格分隔的 20 个单词的列表,按主题中的概率降序排列。
【讨论】: