【问题标题】:What is feature hashing (hashing-trick)?什么是特征散列(散列技巧)?
【发布时间】:2012-01-30 04:14:46
【问题描述】:

我知道特征散列(散列技巧)用于降低维数和处理位向量的稀疏性,但我不明白它是如何工作的。谁能给我解释一下。是否有任何 python 库可用于进行特征散列?

谢谢。

【问题讨论】:

标签: python hash vector machine-learning


【解决方案1】:

在 Pandas 上,您可以使用如下内容:

import pandas as pd
import numpy as np

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

data = pd.DataFrame(data)

def hash_col(df, col, N):
    cols = [col + "_" + str(i) for i in range(N)]
    def xform(x): tmp = [0 for i in range(N)]; tmp[hash(x) % N] = 1; return pd.Series(tmp,index=cols)
    df[cols] = df[col].apply(xform)
    return df.drop(col,axis=1)

print hash_col(data, 'state',4)

输出将是

   pop  year  state_0  state_1  state_2  state_3
0  1.5  2000        0        1        0        0
1  1.7  2001        0        1        0        0
2  3.6  2002        0        1        0        0
3  2.4  2001        0        0        0        1
4  2.9  2002        0        0        0        1

同样在系列级别,您可以

将 numpy 导入为 np, os 将 sys、pandas 导入为 pd

def hash_col(df, col, N):
    df = df.replace('',np.nan)
    cols = [col + "_" + str(i) for i in range(N)]
    tmp = [0 for i in range(N)]
    tmp[hash(df.ix[col]) % N] = 1
    res = df.append(pd.Series(tmp,index=cols))
    return res.drop(col)

a = pd.Series(['new york',30,''],index=['city','age','test'])
b = pd.Series(['boston',30,''],index=['city','age','test'])

print hash_col(a,'city',10)
print hash_col(b,'city',10)

这将适用于单个系列,列名将被假定为 Pandas 索引。它还用 nan 替换空白字符串,并浮动所有内容。

age        30
test      NaN
city_0      0
city_1      0
city_2      0
city_3      0
city_4      0
city_5      0
city_6      0
city_7      1
city_8      0
city_9      0
dtype: object
age        30
test      NaN
city_0      0
city_1      0
city_2      0
city_3      0
city_4      0
city_5      1
city_6      0
city_7      0
city_8      0
city_9      0
dtype: object

但是,如果有一个词汇表,而您只是想进行一次热编码,则可以使用

import numpy as np
import pandas as pd, os
import scipy.sparse as sps

def hash_col(df, col, vocab):
    cols = [col + "=" + str(v) for v in vocab]
    def xform(x): tmp = [0 for i in range(len(vocab))]; tmp[vocab.index(x)] = 1; return pd.Series(tmp,index=cols)
    df[cols] = df[col].apply(xform)
    return df.drop(col,axis=1)

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data)

df2 = hash_col(df, 'state', ['Ohio','Nevada'])

print sps.csr_matrix(df2)

这将给

   pop  year  state=Ohio  state=Nevada
0  1.5  2000           1             0
1  1.7  2001           1             0
2  3.6  2002           1             0
3  2.4  2001           0             1
4  2.9  2002           0             1

我还添加了最终数据帧的稀疏化。在增量设置中,我们可能没有事先遇到所有值(但我们以某种方式获得了所有可能值的列表),可以使用上述方法。增量 ML 方法在每次增量时需要相同数量的特征,因此 one-hot 编码必须在每个批次中产生相同数量的行。

【讨论】:

  • 不幸的是,这并不可靠,因为 Python 的 hash 可能使用随机种子(在较新的 Python 3.x 中默认称为 python -R)。脚本运行的结果可能不同。请参阅我的答案以获得更强大的实现。
  • 请随意使用任何其他 hash() 函数来代替上面显示的简单函数。除此之外,sn-p 可以满足我的一切需求——基于 Pandas 的列重命名、基于 N 的单热编码等。
  • 您能否评论选择要为特征散列选择的维数?
  • @user423805。您能否为字典'country'中的另一列重写第一个代码:['us','ohio','pak','india','india']?我现在是 python 新手,正在学习它。我只是想从 Langford 等人的原始论文中验证我的理解。
  • @user423805,我知道这篇文章已经关闭,但我可以问你一个关于你提供给 Maggie 的答案的问题吗?我的问题是为什么你将“状态”变量存储为 4 个特征(state_0、state_1、state_2 和 state_3)而不是将其存储为 5 或 6 个特征?
【解决方案2】:

Here(抱歉,由于某种原因,我无法将其添加为评论。)另外,Feature Hashing for Large Scale Multitask Learning 的第一页很好地解释了它。

【讨论】:

    【解决方案3】:

    大稀疏特征可以衍生自交互,U 为用户,X 为电子邮件,因此 U x X 的维度是内存密集型的。通常,垃圾邮件过滤等任务也有时间限制。

    哈希技巧像其他哈希函数一样存储二进制位(索引),这使得大规模训练变得可行。理论上,散列长度越大,性能提升越大,如原始论文中所述。

    它将原始特征分配到不同的桶中(特征空间的有限长度),以便保留它们的语义。即使垃圾邮件发送者使用错字错过雷达。尽管存在失真错误,但其哈希形式仍然接近。

    例如,

    “快速棕色狐狸”转换为:

    h(the) mod 5 = 0
    
    h(quick) mod 5 = 1
    
    h(brown) mod 5 = 1
    
    h(fox) mod 5 = 3
    

    使用索引而不是文本值,节省空间。

    总结一些应用:

    • 高维特征向量的降维

      • 邮件分类任务中的文本,协同过滤垃圾邮件
    • 稀疏化

    • 动态词袋

    • 跨产品特性

    • 多任务学习

    参考:

    • 原稿:

      1. 特征散列用于大规模多任务学习

      2. Shi, Q.、Petterson, J.、Dror, G.、Langford, J.、Smola, A.、Strehl, A. 和 Vishwanathan, V. (2009)。 哈希内核

    • What is the hashing trick

    • Quora

    • Gionis, A.、Indyk, P. 和 Motwani, R. (1999)。通过散列进行高维相似性搜索

    实施:

    • Langford, J.、Li, L. 和 Strehl, A. (2007)。 Vowpal wabbit 在线学习项目(技术报告)。 http://hunch.net/?p=309

    【讨论】:

    • 你能评论特征散列对学习模型的影响吗?因为会有哈希冲突。是的,我知道它们是不可能的和最小的等,但是会发生碰撞;这些碰撞对学习模型有什么影响?任何研究这个问题的指针都值得赞赏。有一点很清楚,从散列特征中学习到的模型不能保证与从原始未散列特征中获得的模型相同。它们有何不同以及在何种程度上?
    • @Kai 我已经添加了关于这个主题的原始论文。对误差边界进行了分析,经验结果也进行了分析。请看一看。
    • 请问为什么 'h(quick) mod 5 ' 和 'h(brown) mod 5' 在 'quick' 和 'brown' 是不同的词时都等于 1?
    猜你喜欢
    • 2014-04-11
    • 2021-03-11
    • 2016-05-04
    • 2011-08-12
    • 2019-06-13
    • 2019-01-21
    • 2015-07-23
    • 2017-04-01
    • 1970-01-01
    相关资源
    最近更新 更多