我想将 .csv 文件转换为 Numpy 数组答案

【问题标题】：I want to convert .csv file to a Numpy array我想将 .csv 文件转换为 Numpy 数组
【发布时间】：2020-02-22 05:26:22
【问题描述】：

我想将 mydata.csv 文件转换为 Numpy 数组。

我有一个矩阵表示 mydata.csv 文件（矩阵为 14*79，带符号值，没有任何标题名称。）

-0.094391   -0.086641   0.31659 0.66066 -0.33076    0.02751 …
-0.26169    -0.022418   0.47564 0.39925 -0.22232    0.16129 …
-0.33073    0.026102    0.62409 -0.098799   -0.086641   0.31832 …
-0.22134    0.15488 0.69289 -0.26515    -0.021011   0.47096 …

我认为这段代码适用于这种情况。

import numpy as np

data = np.genfromtxt('mydata.csv', dtype=float, delimiter=',', names=False)

但它不起作用。

我希望最终的 Numpy 数据形状为 data.shape = (14, 79)

我的错误信息看起来像这样..

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-26-060012d7c568> in <module>
      1 import numpy as np
      2 
----> 3 data = np.genfromtxt('output.csv', dtype=float, delimiter=',', names=False)

~\Anaconda3\envs\tensorflow\lib\site-packages\numpy\lib\npyio.py in genfromtxt(fname, dtype, comments, delimiter, skip_header, skip_footer, converters, missing_values, filling_values, usecols, names, excludelist, deletechars, replace_space, autostrip, case_sensitive, defaultfmt, unpack, usemask, loose, invalid_raise, max_rows, encoding)
   1810                            deletechars=deletechars,
   1811                            case_sensitive=case_sensitive,
-> 1812                            replace_space=replace_space)
   1813     # Make sure the names is a list (for 2.5)
   1814     if names is not None:

~\Anaconda3\envs\tensorflow\lib\site-packages\numpy\lib\_iotools.py in easy_dtype(ndtype, names, defaultfmt, **validationargs)
    934             # Simple dtype: repeat to match the nb of names
    935             if nbtypes == 0:
--> 936                 formats = tuple([ndtype.type] * len(names))
    937                 names = validate(names, defaultfmt=defaultfmt)
    938                 ndtype = np.dtype(list(zip(names, formats)))

TypeError: object of type 'bool' has no len()

【问题讨论】：

在示例数据中，分隔符不是逗号（可能是制表符），“names”应该是“None”或其他一些东西，但不能是“False”。
@MichaelButscher import numpy as np data = np.genfromtxt('mydata.csv', dtype=float, delimiter='\t', names=None) 但data 现在是[nan nan nan nan nan nan nan nan nan nan nan nan nan nan]
显然您已经尝试过delimiter=',' 和delimiter='\t'。您能准确地找出文件中的分隔符而不是猜测吗？文件是如何创建的？您可以在编辑器中打开文件并检查分隔字段的字符吗？
@WarrenWeckesser 我会在这里分享mydata.csv pastebin.com/eKf9Sqip
np.loadtxt('mydata.csv', delimiter='\t') 和 np.genfromtxt('mydata.csv', delimiter='\t') 都为我工作。

标签： python numpy csv

【解决方案1】：

为此，您首先创建一个要附加的CSV 文件列表 (file_names)。然后，您可以通过重塑 Numpy-Array 将其导出到单个 CSV 文件中。这将帮助您继续前进：

import pandas as pd
import numpy as np

combined_csv_files = pd.concat( [ pd.read_csv(f) for f in file_names ])

现在，如果您想将这些文件导出到单个 .csv 文件，请使用如下方式：

combined_csv_files.to_csv( "combined_csv.csv", index=False)

现在，为了获得 Numpy Array，你可以这样前进：

data_set = pd.read_csv('combined_csv.csv', header=None)
data_frames = pd.DataFrame(data_set)

required_array = np.array(data_frames.values)
print(required_array)

在这里，您还可以使用以下方法重塑 Numpy 数组：

required_array.shape = (100, 14, 79)

我已经对 cmd 进行了简单的测试来确认这一点：

>>> y = np.zeros((2, 3, 4))
>>> y.shape
(2, 3, 4)
>>> y.shape = (3, 8)
>>> y
array([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]])

【讨论】：

成功了！但我还有一个问题。如果我想组合很多数据集（假设我有 mydata_1.csv、mydata_2.csv、mydata_3.csv、mydata_100.csv），如何自动组合成一个 shape = (100, 14, 79) 的 numpy 数组?因为我需要将自己的数据与卷积神经网络代码一起使用，该代码与 MNIST 数据集一起使用。
@mario119：您应该将它们添加到问题中，而不是在评论中添加您的要求。现在所选答案涵盖了不属于问题的主题，并且实际问题已移至后台。这对那些通过搜索引擎访问此页面的人没有帮助。

【解决方案2】：

试试这个：

import pandas as pd
import numpy as np
mydata = pd.read_csv("mydata.csv")
mydata_array = np.array(mydata)

Out:
array([[-0.26169 , -0.022418,  0.47564 ,  0.39925 , -0.22232 ,  0.16129 ],
   [-0.33073 ,  0.026102,  0.62409 , -0.098799, -0.086641,  0.31832 ],
   [-0.22134 ,  0.15488 ,  0.69289 , -0.26515 , -0.021011,  0.47096 ]])

【讨论】：

成功了！我认为输出是 numpy 数组。但是，array([.., .., ..], ...]) 和 [[... ... ...] [... ... ...]...] 之间有什么区别？

【解决方案3】：

In [347]: txt = """-0.094391   -0.086641   0.31659 0.66066 -0.33076    0.02751 
     ...: -0.26169    -0.022418   0.47564 0.39925 -0.22232    0.16129 
     ...: -0.33073    0.026102    0.62409 -0.098799   -0.086641   0.31832 
     ...: -0.22134    0.15488 0.69289 -0.26515    -0.021011   0.47096""".splitli
     ...: nes()                                                                 
In [348]: txt                                                                   
Out[348]: 
['-0.094391   -0.086641   0.31659 0.66066 -0.33076    0.02751',
 '-0.26169    -0.022418   0.47564 0.39925 -0.22232    0.16129',
 '-0.33073    0.026102    0.62409 -0.098799   -0.086641   0.31832',
 '-0.22134    0.15488 0.69289 -0.26515    -0.021011   0.47096']

In [349]: np.genfromtxt(txt)                                                    
Out[349]: 
array([[-0.094391, -0.086641,  0.31659 ,  0.66066 , -0.33076 ,  0.02751 ],
       [-0.26169 , -0.022418,  0.47564 ,  0.39925 , -0.22232 ,  0.16129 ],
       [-0.33073 ,  0.026102,  0.62409 , -0.098799, -0.086641,  0.31832 ],
       [-0.22134 ,  0.15488 ,  0.69289 , -0.26515 , -0.021011,  0.47096 ]])

False 是 names 的错误值：

In [350]: np.genfromtxt(txt, names=False)                                       
---------------------------------------------------------------------------
...
TypeError: object of type 'bool' has no len()

names=None 可以，但这是默认值，所以不需要。

看起来分隔符是空格。我没有看到任何逗号。默认dtype是float。

【讨论】：