【问题标题】:Word2Vec embedding and CNN on H2O R exampleH2O R 示例上的 Word2Vec 嵌入和 CNN
【发布时间】:2017-11-03 05:23:43
【问题描述】:

我想知道是否可以提供任何r 示例代码以在 H2O DeepWater R 版本中使用 word2vec 和 cnn 进行文本分类?关于mexnetRh2o deep water r 的文档非常少

我已经使用h2or版本包来训练我的word2vecword embedding词汇查找表和文档词向量矩阵。我想知道是否有任何示例代码可以将查找表和原始原始文本组合成使用mxnetR(自定义迭代器)CNN分类模型,或者使用h2o r直接构建CNN。

我问是因为如果我一次将所有数据转换为数组格式,那么我的机器将没有足够的内存来支持它。

【问题讨论】:

    标签: r nlp word2vec h2o mxnet


    【解决方案1】:

    如果 RAM 是一个限制条件(必须是一个非常大的语料库),那么使用 mx.io.CSVIter 可能是一种方法。 CSV 可以批量写入,并且在训练期间内存占用有限。使用 vanilla mx.io.CSVIter,可能需要执行重塑以将特征 X 批次 X seq.length 作为网络中数据的初始转换。

    另一种选择可能是将嵌入作为模型的一部分来学习,例如通过以下演示:http://dmlc.ml/rstats/2017/10/11/rnn-bucket-mxnet-R.html,它还提供了一个带有分桶的自定义迭代器的示例,它也限制了 RAM 消耗。

    【讨论】:

      最近更新 更多