【发布时间】:2021-08-03 17:03:16
【问题描述】:
我需要为文本数据集提取词嵌入。由于 Elmo 需要花费大量时间来处理庞大的数据集,因此我尝试通过将其分成批次并将值存储在 CSV 文件中来并行化该过程。现在我有一个由大约 1024 列组成的数据框,其中包含单词嵌入。
示例数据框:
| Col 1 | Col 2 | Col 3 |
|---|---|---|
| 0.1 | 0.25 | 0.4 |
| 0.2 | 0.3 | -0.1 |
我需要做的是将值按行组合到一列,这需要是 Numpy 数组而不是列表。
这就是我需要的样子:
PS: Col 4 中的值需要是 NumPy 数组类型。
| Col 1 | Col 2 | Col 3 | Col 4 |
|---|---|---|---|
| 0.1 | 0.25 | 0.4 | [0.1,0.25,0.4] |
| 0.2 | 0.3 | -0.1 | [0.2,0.3,-0.1] |
到目前为止我已经尝试过:
np.array(DF.iloc[:,0:1023].values.tolist())
但这会引发以下错误:
ValueError: 传递的项目数错误 1023,位置暗示 1
我该怎么做?任何意见将是有益的。提前致谢!
【问题讨论】:
标签: python pandas dataframe numpy