文本分析概述（数据挖掘）

文本分析概述

非结构化的数据通过向量空间模型转化为结构化的数据，并以表格的形式呈现，两种方式：分词算法与词频统计。
结构化数据：计算机能够识别处理的数据；
非结构化数据：视频、图形、图像、文本、语音等。
对表格中的词，进行特征选择，目的是降维，对文本进行向量净化处理之后，形成最具代表性的文本特征。

文本分析重要的研究内容

1、文本表示模型的选择
2、特征词选择算法

文本表示模型相关的方法和技术

1、TF-IDF方法
2、中文分词法
3、PLDA方法
4、Word2Vec

一、TF-IDF方法

TF-IDF (term frequency-inverse document frequency,词频-逆向文件频率)方法
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中出现的频率很低，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

二、中文分词法

中文不同于英文，英文中的每个单词之间都有空格隔开。在中文里，字、句和段落有明显的分界符进行划界，“词”和“词组”的边界是模糊的，没有一个明显的分界符。“词”是最小的，能够独立运用，并且是有意义的语言单位。文本分词的工作，是把连续的字序列，按照一定的规范，重新组合成词序列。
●基于字典或词库匹配的分词方法（python导入jieba词库）；
●基于词的频度统计的分词方法；
●基于知识理解的方法、并行分词方法。

jieba词库的概述

中文文本需要通过分词，而获得单个词语；jieba词库是优秀的中文分词第三方库，需要额外安装；jieba库提供三种分词模式，精确模式、全模式、搜索引擎模式。
精确模式：把文本精确的切分开，不存在冗余单词；
全模式：把文本中所有可能的词语都扫描出来,有冗余；
搜索引擎模式：在精确模式基础上，对长词再次切分。
jieba库常用的函数如下：
文本分析概述（数据挖掘）

三、PLDA方法

1、主题: 一个概念或方面。它表现为一系列相关的词，能够代表这个主题。
2、数学描述:主题就是词汇表上词语的条件概率分布，与主题密切相关的词，条件概率越大。

四、Word2Vec

Word2Vec模型是简化的神经网络。
缺点:易受维数穴难的闲扰。维数越高，越难刻画词的相似性。

输入One-Hot Vector
Hidden Layer没有**函数,也就是线性的单元。
Output Layer维度跟Input Laye的维度一样，用的是Softmax回归。

独热编码：One-Hot 编码
下面三个特征:
["‘male", "female’"]
[“from Europe”, “from US”, “from Asia”]
[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]
把他们换成独热编码后:
feature1=[01,10]
feature2=[001 ,010,100]
feature3=[0001 ,0010,0100, 1000]