文本分析概述
非结构化的数据通过向量空间模型转化为结构化的数据,并以表格的形式呈现,两种方式:分词算法与词频统计。
结构化数据:计算机能够识别处理的数据;
非结构化数据:视频、图形、图像、文本、语音等。
对表格中的词,进行特征选择,目的是降维,对文本进行向量净化处理之后,形成最具代表性的文本特征。
文本分析重要的研究内容
1、文本表示模型的选择
2、特征词选择算法
文本表示模型相关的方法和技术
1、TF-IDF方法
2、中文分词法
3、PLDA方法
4、Word2Vec
一、TF-IDF方法
TF-IDF (term frequency-inverse document frequency,词频-逆向文件频率)方法
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中出现的频率很低,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
二、中文分词法
中文不同于英文,英文中的每个单词之间都有空格隔开。在中文里,字、句和段落有明显的分界符进行划界,“词”和“词组”的边界是模糊的,没有一个明显的分界符。“词”是最小的,能够独立运用,并且是有意义的语言单位。文本分词的工作,是把连续的字序列,按照一定的规范,重新组合成词序列。
●基于字典或词库匹配的分词方法(python导入jieba词库);
●基于词的频度统计的分词方法;
●基于知识理解的方法、并行分词方法。
jieba词库的概述
中文文本需要通过分词,而获得单个词语;jieba词库是优秀的中文分词第三方库,需要额外安装;jieba库提供三种分词模式,精确模式、全模式、搜索引擎模式。
精确模式:把文本精确的切分开,不存在冗余单词;
全模式:把文本中所有可能的词语都扫描出来,有冗余;
搜索引擎模式:在精确模式基础上,对长词再次切分。
jieba库常用的函数如下:
三、PLDA方法
1、主题: 一个概念或方面。它表现为一系列相关的词,能够代表这个主题。
2、数学描述:主题就是词汇表上词语的条件概率分布,与主题密切相关的词,条件概率越大。
四、Word2Vec
Word2Vec模型是简化的神经网络。
缺点:易受维数穴难的闲扰。维数越高,越难刻画词的相似性。
输入One-Hot Vector
Hidden Layer没有**函数,也就是线性的单元。
Output Layer维度跟Input Laye的维度一样,用的是Softmax回归。
独热编码:One-Hot 编码
下面三个特征:
["‘male", "female’"]
[“from Europe”, “from US”, “from Asia”]
[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]
把他们换成独热编码后:
feature1=[01,10]
feature2=[001 ,010,100]
feature3=[0001 ,0010,0100, 1000]