根据关键字组对文本进行分类？答案

【问题标题】：Classifying Text Based on Groups of Keywords?根据关键字组对文本进行分类？
【发布时间】：2010-12-02 04:21:59
【问题描述】：

我有一个软件项目的需求列表，由其前身的剩余部分组合而成。每个需求都应映射到一个或多个类别。每个类别由一组关键字组成。我正在尝试做的是找到一种算法，它会给我一个分数排名，每个要求可能属于哪个类别。结果将用作进一步分类需求的起点。

举个例子，假设我有这样的需求：

系统会将存款应用到客户的指定账户。

以及类别/关键字：

客户交易：存款、存款、客户、账户、账户
余额账户：账户、账户、借方、贷方
其他类别：foo、bar

我希望算法在第 1 类中对要求的评分最高，在第 2 类中评分较低，在第 3 类中完全不评分。评分机制与我几乎无关，但需要传达第 1 类适用的可能性有多大比第 2 类。

我是 NLP 新手，所以我有点不知所措。我一直在阅读 Natural Language Processing in Python 并希望应用其中的一些概念，但还没有看到任何适合的东西。我认为简单的频率分布行不通，因为我正在处理的文本非常小（一个句子。）

【问题讨论】：

标签： algorithm nlp text-processing

【解决方案1】：

您可能希望查看“相似性度量”或“距离度量”的类别（在数据挖掘术语中，这与“分类”不同。）

基本上，相似性度量是一种数学方法，您可以：

获取两组数据（在您的情况下是单词）
做一些计算/方程/算法
结果是您有一些数字可以告诉您该数据有多“相似”。

对于相似性度量，这个数字是一个介于 0 和 1 之间的数字，其中“0”表示“完全不匹配”，“1”表示“相同”

因此，您实际上可以将您的句子视为一个向量——句子中的每个单词都代表该向量的一个元素。每个类别的关键字列表也是如此。

然后您可以做一些非常简单的事情：使用“cosine similarity”或“Jaccard index”（取决于您如何构建数据。）

这两个指标的作用是获取两个向量（您的输入句子和您的“关键字”列表）并给您一个数字。如果您对所有类别执行此操作，您可以对这些数字进行排名，以查看哪个匹配项具有最大的相似系数。

举个例子：

根据您的问题：

客户交易：存款，存款、客户、账户、账户

所以你可以构造一个包含 5 个元素的向量：(1, 1, 1, 1, 1)。这意味着，对于“客户交易”关键字，您有 5 个单词，并且（这听起来很明显，但是）这些单词中的每一个都出现在您的搜索字符串中。跟着我。

所以现在你的句子：

系统应将存款应用于客户指定的帐户。

这有来自“客户交易”集中的 2 个词：{deposits, account, customer}

（实际上，这说明了另一个细微差别：您实际上有“客户”。这是否等同于“客户”？）

句子的向量可能是 (1, 0, 1, 1, 0)

这个向量中的 1 与第一个向量中的 1 的位置相同 - 因为这些词是相同的。

所以我们可以说：这些向量相差多少次？比较一下：

(1,1,1,1,1) (1,0,1,1,0)

嗯。它们有 3 次相同的“位”——在第 1、第 3 和第 4 位。它们仅相差 2 位。因此，假设当我们比较这两个向量时，我们的“距离”为 2。恭喜，我们刚刚计算了 Hamming distance！汉明距离越小，数据就越“相似”。

（“相似性”度量和“距离”度量之间的区别在于前者是标准化的 - 它为您提供 0 到 1 之间的值。距离是任意数字，因此它只为您提供相对值.)

无论如何，这可能不是进行自然语言处理的最佳方式，但就您的目的而言，它是最简单的，并且实际上可能非常适合您的应用程序，或者至少作为一个起点。

（PS：“分类”-正如您在标题中所说的那样-将回答“如果您接受我的句子，它最有可能属于哪个类别？”这与说“多少我的句子与类别 1 比类别 2 更相似？”这似乎是您所追求的。）

祝你好运！

【讨论】：

请注意：此处描述的技术更适用于集群类型的任务。在这里，与每个类别相关联的单词的预定义列表根本不是原型项目，并且这些与实际项目之间的传统距离函数不代表项目属于相应类别。例如，一个特定类别可能有几十个关键字（即使我们只希望在一个项目的给定实例中找到几个），由于汉明距离得分不佳，此类类别可能会被低估。
嗯，关于汉明是一个糟糕的衡量标准，你是对的 - 正如你在回答中所说，将结果标准化，以获得“命中”与“未命中”以查看这些集合的相关程度。也许以该方法为例是一个次优的选择！
你说的都对，我最理想的做法是将关键字和句子中的时态和复数标准化。这样，我只列出“客户”而不是“客户”、“存款”而不是“存款”或“存款”。我认为 Hamming 仍然存在代表性不足的风险，但我认为这是我正在尝试做的一个很好的尝试。

【解决方案2】：

问题的主要特点是：

外部定义的分类标准（关键字列表）
要分类的项目（需求文档中的行）由相对较少的属性值组成，实际上只有一个维度：“关键字”。
按照定义，没有反馈/校准（尽管建议其中一些可能是合适的）

这些特征带来了好消息和坏消息：实施应该相对简单，但分类过程的一致准确性可能难以实现。此外，少量的各种数量（可能的类别数、项目中的最大/平均单词数等）应该为我们提供空间来选择可能是 CPU 和/或空间密集型的解决方案，如果需要的话。

然而，即使这个许可证得到了“花哨”，我建议从（并保持接近）一个简单的算法开始并在此基础上扩展加上一些补充和考虑，同时对称为过度拟合的永远存在的危险保持警惕。

基本算法（概念性，即目前不关注性能技巧）

参数 = CatKWs = 字符串列表的数组/散列。该列表包含可能的关键字，用于给定的类别。用法：CatKWs[CustTx] = ('deposits', 'deposit', 'customer' ...) NbCats = 预定义类别的整数变量： CatAccu = 一个数组/数值散列，每个数值有一个条目可能的类别。用法：CatAccu[3] = 4（如果是数组）或 CatAccu['CustTx'] += 1（散列） TotalKwOccurences = 统计关键字匹配的总数（counts 多个预定义类别中找到一个单词时）伪代码：（用于对一个输入项进行分类） 1. 对于 x in 1 到 NbCats CatAccu[x] = 0 // 重置累加器 2.对Item中的每个单词W 对于 1 到 NbCats 中的每个 x 如果在 CatKWs[x] 中找到 W TotalKwOccurences++ CatAccu[x]++ 3. 对于 1 中的每个 x 到 NbCats CatAccu[x] = CatAccu[x] / TotalKwOccurences // 计算评分 4. 按值对 CatAccu 进行排序 5.返回(CategoryID, rating)的有序列表对于给定阈值的所有相应 CatAccu[x] 值。

简单但合理：我们偏爱匹配最多的类别，但我们除以匹配的总数，这是在找到许多单词时降低置信度的一种方式。请注意，此划分不会影响给定项目的类别选择的相对排名，但在比较不同项目的评分时可能会很重要。

现在，我想到了几个简单的改进：（我会认真考虑前两个，并考虑其他的；决定其中的每一个都与项目的范围密切相关，要分类的数据和其他因素...）

我们应该规范化从输入项中读取的关键字和/或以允许拼写错误的方式匹配它们。由于我们要处理的单词很少，因此我们需要确保不会因为愚蠢的错字而丢失重要的单词。
我们应该更加重视在 CatKW 中出现频率较低的单词。例如，单词“Account”应该小于单词“foo”或“credit”
我们可以（但也许这不会有用甚至没有帮助）对包含较少 [非噪音] 词的项目的评分给予更高的权重。
我们还可以考虑基于 digrams（两个连续的单词），因为对于自然语言（并且要求文档不是很自然 :-)）单词接近度通常是比单词本身更强的指标。
我们可以为分配给前面（或什至后面，在前瞻逻辑中）项目的类别添加一点重要性。项目可能会出现在相关系列中，我们可以从这种规律中受益。

此外，除了评分本身的计算，我们还应该考虑：

一些用于评估算法结果本身的指标（待定）
一些逻辑来收集与指定类别相关联的单词列表并最终对这些进行统计。这可能允许识别代表某个类别且最初未在 CatKW 中列出的词。

指标的问题，应该尽早考虑，但这也需要输入项的参考集：排序的“训练集”，即使我们正在处理预定义的字典类别关键字（通常是训练集合用于确定这个类别关键字列表以及权重因子）。当然，这样的参考/训练集应该既具有统计意义又具有统计代表性[整个集合]。

总结一下：坚持简单的方法，反正上下文不会留下非常花哨的空间。考虑引入一种衡量特定算法效率的方法（或给定算法中的特定参数），但请注意，此类指标可能存在缺陷，并提示您在损害其他项目（过度拟合）。

【讨论】：

【解决方案3】：

我也面临同样的问题，即仅基于关键字创建分类器。我有一个类关键字映射器文件，其中包含类变量和特定类中出现的关键字列表。我提出了以下算法，它工作得非常好。

# predictor algorithm
for docs in readContent:
    for x in range(len(docKywrdmppr)):
        catAccum[x]=0
    for i in range(len(docKywrdmppr)):
        for word in removeStopWords(docs):
            if word.casefold() in removeStopWords(docKywrdmppr['Keywords'][i].casefold()):
                print(word)
                catAccum[i]=catAccum[i]+counter
    print(catAccum)
    ind=catAccum.index(max(catAccum))
    print(ind)
    predictedDoc.append(docKywrdmppr['Document Type'][ind])

【讨论】：