【发布时间】:2019-09-05 10:43:13
【问题描述】:
这是我的代码:
def extract_doc2vec(doc, w2v):
vecs = [w2v[word] for word in doc if word in w2v]
if len(vecs) > 0:
vecs = np.asarray(vecs).sum(axis=0)
return vecs
y = newsgroups_all['target']
x= []
for doc in newsgroups_all['data']:
edv = extract_doc2vec(list(gensim.utils.tokenize(doc)),model.wv)
x.append(edv)
我必须将 retrain_doc 转换成适合的格式
for train_index, test_index in sssd.split(x, y):
X_train, X_test = x[train_index], x[test_index]
y_train, y_test = y[train_index], y[test_index]
【问题讨论】:
-
不清楚你要做什么
-
标题问题的最后一个参数是一个列表数组。我假设您实际上想要一个二维数组?
-
@00 是的,我必须用 StratifiedShuffleSplit 拆分 x
-
我没试过,但是
np.vstack(myarray)对你有用吗? -
我已经回滚了原始代码,因为不清楚 jdehesa 引入的缩进修复是否正确。也许它只是缺少缩进的部分,并且该编辑可能掩盖了块的末尾。但是,请务必通过editing 并应用适当的缩进来解决您的问题。
标签: python arrays numpy tensorflow