【发布时间】:2016-05-16 17:59:08
【问题描述】:
我正在使用 scikit learn 对两个标签进行文本分类。我正在使用 load_files 方法加载我的文本文件
categories={'label0','label1'}
text_data = load_files(path,categories=categories)
来自以下结构:
train
├── Label0
│ ├── 0001.txt
│ └── 0002.txt
└── Label1
├── 0001.txt
└── 0002.txt
我的问题是,当我尝试查看 text_data.data 的形状时,它会返回:
print (type(text_data.data))
<type 'list'>
print text_data.data.shape
AttributeError: 'list' object has no attribute 'shape'
X = np.array(text_data.data)
print x.shape
(35,)
它返回一维数组.. 我认为它应该是二维 numpy 数组或字典,其中第一个用于文本,另一个用于类(label0 或 1).. 我错过了什么吗?
【问题讨论】:
-
我已经编辑了这个问题..我的问题是返回的列表是一个一维数组......只有文本存储在那里......返回的列表不应该包含文本吗作为类标签?
-
一旦你把你的数据输入进去,别忘了打乱它并创建你的验证集。 (为了尽可能严格,您应该在创建文本特征之前洗牌和拆分(根据大卫莫斯特的建议))
标签: python scikit-learn