【问题标题】:Conversion of a Dataframe to a Tensor将数据帧转换为张量
【发布时间】:2021-08-17 22:11:26
【问题描述】:

我有一个数据框,可以说是形状 [10,4],其中形状 [1,246] 的第 3 列和第 4 列。我该如何转换它,或者说重塑它以使其可以转换为适当的张量。

问题简介:- 我实际上有一个形状为 [10,2] 的数据集,我用它来训练 bert。在使用 bert 标记器对其一列进行标记后,我得到形状为 [1,23] 的 input_ids,它被保存为数据框中的新列,将形状更改为 [10,3],其中 3 列的形状为 [1,23]。现在我想将它提供给我的 bert 模型进行训练,我需要将其转换为张量。帮我找出最好的方法。

下面的图片可以帮助你了解什么样的 我面临的问题。

整个数据框的形状为 [5000,4],其中元素 column[input_ids] 数组的形状为 [1,56],其中 56 是最大标记词。

【问题讨论】:

  • 请提供您当前代码的minimal reproducible example,最好是为您的数据框提供示例输入。
  • @dennlinger 修改了这个问题,希望现在可以使用

标签: pandas dataframe numpy tensorflow bert-language-model


【解决方案1】:

我认为您正在寻找 Numpy 数组,如下所示:

a = [1, 2]
np.asarray(a)
array([1, 2])

【讨论】:

  • 不让我们考虑这个数据帧的第一行是 [1,[2,3,4]5,6] 我想把它转换成张量
  • 请参考附图。
  • 我喜欢图片,但在这种情况下,实际数据可能会更好。也许您有一个列表列表,您需要将其展平并将其转换为数组?不确定。你可以试试这个: flat_list = [item for sublist in mylist for item in sublist] 或者,请参阅下面的链接。同样,这只是一个猜测。 educative.io/edpresso/how-to-flatten-a-list-of-lists-in-python
猜你喜欢
  • 2018-10-22
  • 2021-05-28
  • 2017-07-06
  • 2022-01-05
  • 2017-12-30
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多