【发布时间】:2016-12-17 19:44:41
【问题描述】:
您好,我正在使用 sklearn 并使用 kmeans 进行自然语言处理,我使用 Kmeans 从 cmets 创建集群,然后我创建了一个字典,其中集群的数量作为 Key 和关联的 cmets 列表作为值如下:
dict_clusters = {}
for i in range(0,len(kmeans.labels_)):
#print(kmeans.labels_[i])
#print(listComments[i])
if not kmeans.labels_[i] in dict_clusters:
dict_clusters[kmeans.labels_[i]] = []
dict_clusters[kmeans.labels_[i]].append(listComments[i])
print("dictionary constructed")
我想用我试过的这本字典写一个 csv:
Out = open("dictionary.csv", "wb")
w = csv.DictWriter(Out,dict_clusters.keys())
w.writerows(dict_clusters)
Out.close()
但是我不确定为什么会出错,因为我收到以下错误,此外我不确定此错误是否与 numpy 有关,因为 kmeans.labels_ 包含多个值,
Traceback (most recent call last):
File "C:/Users/CleanFile.py", line 133, in <module>
w.writerows(dict_clusters)
File "C:\Program Files\Anaconda3\lib\csv.py", line 156, in writerows
return self.writer.writerows(map(self._dict_to_list, rowdicts))
File "C:\Program Files\Anaconda3\lib\csv.py", line 146, in _dict_to_list
wrong_fields = [k for k in rowdict if k not in self.fieldnames]
TypeError: 'numpy.int32' object is not iterable
感谢您对此的支持,我希望用我的字典获得一个 csv,如下所示:
key1, value
key2, value
.
.
.
keyN, value
在收到这里的反馈后,我尝试了:
with open("dictionary.csv", mode="wb") as out_file:
writer = csv.DictWriter(out_file, headers=dict_clusters.keys())
writer.writerow(dict_clusters)
我明白了:
Traceback (most recent call last):
File "C:/Users/CleanFile.py", line 129, in <module>
writer = csv.DictWriter(out_file, headers=dict_clusters.keys())
TypeError: __init__() missing 1 required positional argument: 'fieldnames'
尝试2:
Out = open("dictionary.csv", "wb")
w = csv.DictWriter(Out,dict_clusters.keys())
w.writerows([dict_clusters])
Out.close()
输出:
Traceback (most recent call last):
File "C:/Users/CleanFile.py", line 130, in <module>
w.writerows([dict_clusters])
File "C:\Program Files\Anaconda3\lib\csv.py", line 156, in writerows
return self.writer.writerows(map(self._dict_to_list, rowdicts))
TypeError: a bytes-like object is required, not 'str'
attempt3,这个尝试需要很长时间来计算输出:
Out = open("dictionary.csv", "wb")
w = csv.DictWriter(Out,dict_clusters.keys())
w.writerow(dict_clusters)
Out.close()
我使用的python版本如下:
3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)]
3.5.2
在尝试了很多次之后,我决定使用更好的方法来构建我的字典,如下所示:
from collections import defaultdict
pairs = zip(y_pred, listComments)
dict_clusters2 = defaultdict(list)
for num, comment in pairs:
dict_clusters2[num].append(comment)
但似乎某些字符导致 csv 文件的创建失败,如下所示:
with open('dict.csv', 'w') as csv_file:
writer = csv.writer(csv_file)
for key, value in dict_clusters2.items():
writer.writerow([key, value])
输出:
Traceback (most recent call last):
File "C:/Users/CleanFile.py", line 146, in <module>
writer.writerow([key, value])
File "C:\Program Files\Anaconda3\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\U0001f609' in position 6056: character maps to <undefined>
为了更清楚我执行了:
for k,v in dict_clusters2.items():
print(k, v)
我得到了类似的东西:
1 ['hello this is','the car is red',....'performing test']
2 ['we already have','another comment',...'strings strings']
.
.
19 ['we have',' comment music',...'strings strings dance']
我的字典有一个键和几个 cmets 的列表我想要一个 csv 如下:
1,'hello this is','the car is red',....'performing test'
2,'we already have','another comment',...'strings strings'
.
.
19,'we have',' comment music',...'strings strings dance'
但是好像有些角色没有很好的映射,一切都失败了,我想得到支持谢谢支持。
【问题讨论】:
-
与问题无关:您可能想查看
enumerate和dict.setdefault第一个代码块可以写成for i, label in enumerate(kmeans.labels_): dict_clusters.setdefault(label, []).append(listComments[i])之类的东西(尽管最好分成几行) -
甚至比
enumerate更好,在这种情况下,您可能需要查看zip 以同时循环遍历listComments和kmeans.labels_。更多关于索引循环的信息:treyhunner.com/2016/04/how-to-loop-with-indexes-in-python -
作为
dict.setdefault的替代品,可以使用collections.defaultdict(list)。我通常更喜欢defaultdict而不是dict.setdefault,但它们都达到了相同的目的。 -
您打开文件以写入字节
"wb",但 csv 模块正在尝试写入字符串,因此只需将其更改为"w" -
等待.. 我认为您将数据以错误的格式放入
csv.DictWriter,您能否提供一个(小)基本示例,说明您开始使用的数据是什么样的以及 csv 如何应该看起来像输出?我认为您需要制作一个字典列表,其中每个值都代表一行,而不是一个包含每列列表的字典。
标签: python csv numpy dictionary anaconda