nlp=nlu+nlg
nature language understanding
natrue language generation

The challenge:
ambiguity:
Data->context上下文处理,更新认知->Use probability

*case study: machine translation 机器翻译系统

简单地按照概率匹配建立一一对应的词库后,有以下问题:

语义
上下文
语法不对(语言不同,语法不同)
需要大量人工规则统计

grammar problems:for statistical machine translation

中文

->分词 segmentation:今晚 的 课程 有意思

-> Chinese/English Bilingual Text Dict (Translation Model)

-> Tonight/of/the course/interesting (broken English)

-> list all possible combinations:
Tonight of interesting course
Of tonight interesting course

Totally 4!possible combinations

->上述句子通过Language Model语言模型: LM (Probabilty(Combinations)=0.2),计算所有句子的出现概率,选择最高概率的句子组合

->输出 The course of tonight is interesting

上述模型时间复杂度极高,n!种combinations,即o(2^n),np hard。怎么变成多项式复杂度?可否TM+LM同时考虑-> Decoding Algorithm->Viterbi Algorithm*(DP 动态规划)**

中文C,英文E
To find max probabilty of E for P(E|C)->贝叶斯定理->P(C|E) * P(E) / P©
Translation Model:P(C|E)
Language Model:P(E)

++++
插播一下Bayes’s theorem,可以看一下:链接中的讲解。贝叶斯定理又可以理解为:
What is NLP?

相关文章: