【发布时间】:2018-11-11 15:55:00
【问题描述】:
我的数据集由句子组成。每个句子的长度都是可变的,最初被编码为词汇索引序列,即。一个形状为 [sentence_len] 的张量。批量大小也是可变的。
我已将相似长度的句子分组到桶中,并在必要时进行填充,以使桶中的每个句子的长度相同。
如何处理未知的句子长度和批量大小?
我的数据提供者会告诉我每批的句子长度是多少,但我不知道如何提供该信息 -> 那时已经构建了图表。输入用占位符x = tf.placeholder(tf.int32, shape=[batch_size, sentence_length], name='x') 表示。我可以将batch_size 或sentence_length 转为None,但不能同时转。
更新:事实上,有趣的是,我可以将两者都设置为None,但我得到Converting sparse IndexedSlices to a dense Tensor of unknown shape. This may consume a large amount of memory.注意:下一层是embedding_lookup。
我不确定这意味着什么以及如何避免它。我认为它与稍后使用tf.gather 有关,我需要使用它。
或者还有其他方法可以实现我的需要吗?
谢谢。
【问题讨论】:
-
那么你的问题到底是什么?您可以将占位符声明为您已告知的 [None,None] 形状。你能再澄清一下这个问题吗?
-
当然。更新的问题。
标签: python tensorflow machine-learning