NLP

NLP - Log-linear Models

        现在抛开我们之前讲的马尔科夫模型的假设,对于一门语言的定义,肯定不能简单依赖于每个单词的前两个单词,这是常识。比如英语中的动词形态就和主语有关。那么我会怎么考虑一个语言模型呢,很可能是下面这样一个情况:                     我们之前讲的Trigram模型也可以用这样的形式来表示:                       那么我们要用我们增加的一些定义,一种n »

【NLP_Stanford课堂】文本分类1

文本分类实例:分辨垃圾邮件、文章作者识别、作者性别识别、电影评论情感识别(积极或消极)、文章主题识别及任何可分类的任务。 一、文本分类问题定义: 输入: 一个文本d 一个固定的类别集合C={c1,c2,...,cj},一共j个类别 输出:一个d的预测类别c∈C 方法: 最简单的是使用基于词或其他特征组合的手写规则 垃圾邮件:列举出一系列黑名单的邮箱地址或者词(比如,“dollars”和“h »

【论文笔记】MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs

  MOOCCube是一个服务于MOOC相关研究的开源大规模数据仓库。和已有类似的教育资源数据库相比它的规模庞大,数据丰富且多样。其中的学生行为记录包括学习时长、学习次数、学习视频的区间等非常完善的学生行为。包含近20万名学生的、总计将近500万人次的视频观看学习的记录。这部分数据其实可以拿来做包括用户的行为分析建模甚至是相关推荐等等;对于课程视频资源,选取了706门课程和将近4万个视频并做以相应 »

espnet中的transformer和LSTM语言模型对比实验

摘要:本文以aishell为例,通过对比实验为大家介绍transformer和LSTM语言模型。 本文分享自华为云社区《espnet中的transformer和LSTM语言模型对比 以aishell为例》,作者: 可爱又积极 。 NLP特征提取器简介 - RNN和Transformer 近年来,深度 ... »

NLP面试问题个人总结-交叉熵&RNN

1 列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF (引用自:https://www.cnblogs.com/jiashun/p/CrossEntropyLoss.html) 信息: 由于概率I 是一个)0至1的值,所以当事件发生的概率越大时,信息量越小。 相对熵:  相对熵又称KL散度(Kullback-Leibler (KL) divergence),用 »

NLP 自然语言处理实战

自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,用于分析理解机器与人之间的交互,常用的领域有:实体识别、文本纠错、情感分析、文本分类、关键词提取、自... ... »

NLP(十一):sentence_BERT

一、引言 https://zhuanlan.zhihu.com/p/351678987 在自然语言处理NLP中,文本分类、聚类、表示学习、向量化、语义相似度或者说是文本相似度等等都有非常重要的应用价值。这些任务都是为了能从复杂的文本中,通过采用ML/DL的方法,学习到本文深层次的语义表示,从而更好地服务于下游任务(分类、聚类、相似度等)。这里笔者将这些统一概括为智能语义计算。 二、具体应用场景 »

NLP系列-中文分词(基于统计)

上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词。         统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。 统计分词一般做如下两步操作: 1.建立统计语言模型(n-gram) 2.对句子进行单词划分,然后对划分结果做概率计算,获取概率最大的分词方式。这里就用到了统计学习算法,如隐马尔科夫模 »

01-NLP-01-原理与基础

实例一:Kaggle上的竞赛题: https://www.kaggle.com/c/home-depot-product-search-relevance 尽量用一些不一样的库来感受一下python NLP领域各个库的优缺点。   Kaggle竞赛题:https://www.kaggle.com/c/home-depot-product-search-relevance 鉴于课件里已经完整的 »

【NLP-15】BERT模型(Bidirectional Encoder Representations from Transformers)

BERT简介 BERT概述 BERT解析 GLUE语料集 模型比较 总结 一句话简介:2018年年底发掘的自编码模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入双向transformer(借用了ELMo的双向思路,GPT的transformer)中。Masked LM(MLM,借用了CBOW的上下预测中心的思虑,也是双向的)和Next »

NLP(十):pytorch实现中文文本分类

一、前言 参考:https://zhuanlan.zhihu.com/p/73176084 代码:https://link.zhihu.com/?target=https%3A//github.com/649453932/Chinese-Text-Classification-Pytorch 代码:https://link.zhihu.com/?target=https%3A//github.co »

NLP - 纠错理论知识

假设有这么一个场景,医生开处方的时候,可能写错药品和疾病名称,需要程序自动化纠错例如:曲米新乳膏和二甲双瓜和双黄连    曲米新乳膏 ==> 曲咪新乳膏    二甲双瓜 ==> 二甲双胍 怎么做呢?直觉告诉我们,应该有一个数据源,包含所有的药品疾病名称。1、数据抓取      寻医问药 http://www.xywy.com/    丁香园 http://www.dxy.cn/    »

NLP 自然语言处理之综述

(1) NLP 介绍 NLP 是什么? NLP (Natural Language Processing) 自然语言处理,是计算机科学、人工智能和语言学的交叉学科,目的是让计算机处理或“理解”自然语言。自然语言通常是指一种自然地随文化演化的语言,如汉语、英语、日语。 NLP 可以用来做什么?以及它的应用领域是什么? 文本朗读(Text to speech)/ 语音合成(Speech synthes »

用Spark-NLP建立文本分类模型

作者|GUEST 编译|VK 来源|Analytics Vidhya 概述 在AWS电子病历上建立John Snow实验室的Spark NLP,并使用该库对BBC文章进行简单的文本分类。 介绍 自然语言处理是全球数据科学团队的重要过程之一。随着数据的不断增长,大多数组织已经转移到大数据平台,如apachehadoop和AWS、Azure和GCP等云产品。 这些平台不仅能够处理大数据,使组织能 »

[转] 自然语言处理全家福:纵览当前NLP中的任务、数据、模型与论文

from: https://zhuanlan.zhihu.com/p/38445982 选自Github,作者:Sebastian Ruder,机器之心编译。 自然语言处理有非常多的子领域,且很多都没有达到令人满意的性能。本文的目的是追踪自然语言处理(NLP)的研究进展,并简要介绍最常见 NLP 任务的当前最佳研究和相关数据集。作者 Sebastian Ruder 在文中覆盖了传统的和核心的 »