【发布时间】:2021-08-17 22:11:26
【问题描述】:
我有一个数据框,可以说是形状 [10,4],其中形状 [1,246] 的第 3 列和第 4 列。我该如何转换它,或者说重塑它以使其可以转换为适当的张量。
问题简介:- 我实际上有一个形状为 [10,2] 的数据集,我用它来训练 bert。在使用 bert 标记器对其一列进行标记后,我得到形状为 [1,23] 的 input_ids,它被保存为数据框中的新列,将形状更改为 [10,3],其中 3 列的形状为 [1,23]。现在我想将它提供给我的 bert 模型进行训练,我需要将其转换为张量。帮我找出最好的方法。
下面的图片可以帮助你了解什么样的 我面临的问题。
整个数据框的形状为 [5000,4],其中元素 column[input_ids] 数组的形状为 [1,56],其中 56 是最大标记词。
【问题讨论】:
-
请提供您当前代码的minimal reproducible example,最好是为您的数据框提供示例输入。
-
@dennlinger 修改了这个问题,希望现在可以使用
标签: pandas dataframe numpy tensorflow bert-language-model