【发布时间】:2012-11-15 08:59:20
【问题描述】:
我有一个包含两个表的 SQLite 数据库:
Objects:
object_id int,
name varchar(50)
Values:
key char(12),
value int,
object_id int
如您所见,每个对象都包含一个键值对列表。该列表通常包含 10 到 60 个条目。 (key, object_id) 的组合在 values 表中是唯一的。
然后我从用户那里得到一个键值对列表,并想在数据库中搜索最相似的对象。用户提供的对象在大多数情况下不会直接匹配我数据库中的任何对象。
相似性意味着两个对象的键列表几乎相等,并且这些键的值相似(在大多数情况下,值也不相等)。该列表可以是可变长度的。
考虑以下列表:
A = { a: 10, b: 20, c: 30 }
B = { a: 11, c: 80, d: 90 }
C = { c: 70, d: 89, e: 40, f: 100 }
D = { c: 65, d: 80, e: 41 }
A 和 B 都包含键 a 和 c 而 b 和 d 只包含在一个中其中。因此,如果我们只看键,相似度将是 0.5。 A 和 D 只有 c 相同,a、b、d 和 e 仅包含在一个列表中。所以它们不会很相似。
在下一步中,我必须查找匹配键的值。因此,在 A 和 B 的示例中,必须比较键 a 和 c 的值。 a 非常相似,而 c 不是很好的匹配。
是否可以直接使用 SQLite 进行这样的搜索?如果不是,那么进行搜索的最佳方式/算法是什么?搜索应尽可能快,但不应消耗太多计算能力/内存,因为我在移动设备上执行此操作。
非常感谢有关此主题的任何帮助、链接或资源。
【问题讨论】:
-
你如何定义
similar keys或almost equal objects? -
密钥本身是否相等。列表可以包含可变数量的键值对,因此一些键在两个列表中,而另一些则不在。如果大多数键都包含在两个列表中,并且只有少数键只在其中一个中,则对象几乎相等。这些键的值应该尽可能相似(总是整数)。
-
那么
similarity的意思是至少K个key是相等的? -
好的,你已经定义了
similar等价于almost,现在请定义almost。一些样本接近的数学和接近的不匹配可能是个好主意。 -
不清楚。应该如何准确地计算相似度?请显示这些对象的所有组合的示例,或者更好地描述如何计算它。你真的有算法吗?
标签: sql algorithm sqlite data-mining cluster-analysis