【发布时间】:2015-01-18 22:54:32
【问题描述】:
决定删了再问,比较简单!请不要像人们所说的那样投反对票。
我有两个嵌套字典:-
wordFrequency = {'bit':{1:3,2:4,3:19,4:0},'red':{1:0,2:0,3:15,4:0},'dog':{1:3,2:0,3:4,4:5}}
search = {1:{'bit':1},2:{'red':1,'dog':1},3:{'bit':2,'red':3}}
第一个字典将单词链接到文件编号和它们在该文件中出现的次数。第二个包含将单词与其在当前搜索中出现的次数相关联的搜索。
我想提取某些值,以便对于每次搜索,我可以计算单词在文件中出现的次数和它们在搜索中出现的次数除以它们的大小之间的标量积,然后查看哪个文件最多类似于当前搜索,即(搜索中出现的单词 1 * 出现在文件中的单词 1)+(搜索中出现的单词 2 * 出现在文件中的单词 2)等。然后将搜索字典返回到文件编号列表,最相似首先,最不相似的最后一个。
预期输出是字典:
{1:[4,3,1,2],2:[1,2,4,3]}
等等
键是搜索编号,值是最相关的文件列表。
(这些可能实际上并不正确。)
这就是我所拥有的:-
def retrieve():
results = {}
for word in search:
numberOfAppearances = wordFrequency.get(word).values()
for appearances in numberOfAppearances:
results[fileNumber] = numberOfAppearances.dot()
return sorted (results.iteritems(), key=lambda (fileNumber, appearances): appearances, reverse=True)
对不起,它只是说 wdir = 然后是 .py 文件所在的目录。
- 编辑
整个 Retrieve.py 文件:
from collections import Counter
def retrieve():
wordFrequency = {'bit':{1:3,2:4,3:19,4:0},'red':{1:0,2:0,3:15,4:0},'dog': {1:3,2:0,3:4,4:5}}
search = {1:{'bit':1},2:{'red':1,'dog':1},3:{'bit':2,'red':3}}
results = {}
for search_number, words in search.iteritems():
file_relevancy = Counter()
for word, num_appearances in words.iteritems():
for file_id, appear_in_file in wordFrequency.get(word, {}).iteritems():
file_relevancy[file_id] += num_appearances * appear_in_file
results[search_number] = [file_id for (file_id, count) in file_relevancy.most_common()]
return results
我正在使用 Anaconda Python 2.7 的 Spyder GUI/IDE,只需按下绿色播放按钮,输出为:
wdir='/Users/danny/Desktop'
- 编辑 2
关于大小,例如,对于搜索号 3 和文件 1,它将是:
sqrt (2^2 + 3^2 + 0^2) * sqrt (3^2 + 0^2 + 3^2)
【问题讨论】:
-
我不会这么说,这是更基本的方式。你能帮忙吗?
标签: python search dictionary text-processing