【发布时间】:2018-07-18 19:05:41
【问题描述】:
我是 Python 和 Pyspark 的新手,我正在练习 TF-IDF。 我从 txt 文件中的句子中拆分了所有单词,删除了标点符号,删除了停用词列表中的单词,并使用以下代码将它们保存为字典。
x = text_file.flatmap(lambda line: str_clean(line).split()
x = x.filter(lambda word: word not in stopwords
x = x.reduceByKey(lambda a,b: a+b)
x = x.collectAsMap()
我有 10 个不同的 txt 文件用于同一进程。我想在字典中的键中添加一个类似"@d1" 的字符串,这样我就可以指出该键来自文档 1。
如何将"@1" 添加到字典中的所有键中?
基本上我的字典是这样的:
{'word1': 1, 'word2': 1, 'word3': 2, ....}
我希望它是:
{'word1@d1': 1, 'word2@d1': 1, 'word3@d1': 2, ...}
【问题讨论】:
标签: python string dictionary