NLP

NLP新手入门指南|北大-TANGENT

开源的学习资源:《NLP 新手入门指南》,项目作者为北京大学 TANGENT 实验室成员。 该指南主要提供了 NLP 学习入门引导、常见任务的开发实现、各大技术教程与文献的相关推荐等内容,是一份非常全的适合新手小白初学入门的权威指南。 值得mark! 以下正文: 本教程供新加入 TANGENT 实验 ... »

NLP(十九) 双向LSTM情感分类模型

原文链接:http://www.one2know.cn/nlp19/ 使用IMDB情绪数据来比较CNN和RNN两种方法,预处理与上节相同 from __future__ import print_function import numpy as np import pandas as pd from keras.preprocessing import sequence from keras. »

NLP任务:给定一句话,找出这句话中你想要的关键词,包括起始结束索引

  在实际的nlp实际任务中,你有一大堆的人工标注的关键词,来新的一句话,找出这句话中的关键词,以便你以后使用,那如何来做呢?   1)用到正则的 finditer()方法,返回你匹配的关键词的迭代对象,包含起始结束索引   2)增强list循环,提取数据 代码如下: import re s = 'dengyexun' idx = [i.start() for i in re.finditer( »

【NLP模型笔记】GloVe模型简介

GloVe模型 glove模型的参考资料链接如下: https://nlp.stanford.edu/projects/glove/ 论文链接(pdf)如下: https://nlp.stanford.edu/pubs/glove.pdf GloVe: Global Vectors for Word Representation [Jeffrey Pennington], [Richard S »

【NLP】BLEU值

为了解决这个问题,首先需要知道BLEU值是如何计算出来的。 BLEU全称是Bilingual Evaulation Understudy。其意思是双语评估替补。所谓Understudy(替补),意思是代替人进行翻译结果的评估。 BLEU的思想基于Count based Model,尽管它并不完美,但它提供了一种非常有效的以单一数字指标评估机器翻译结果的方法。 下面以一个例子说明BLEU的计算。 假 »

【NLP】Python3.6.5中使用 Stanford NLP工具包进行词性标注

1. 写在前面 《NLP汉语自然语言处理原理与实践》(郑捷著)是一本专业研究自然语言处理的书籍,本文作者在阅读这本书,调试其中的程序代码时,发现由于版本升级,导致其中的某些程序无法执行。本文针对书中第24页“安装StanfordNLP并编写Python接口类”部分的程序,列出在版本升级后出现的问题,以及相应的解决方案。本文也可以单独作为学习StanfordNLP工具包的学习文档。   2. 开发环 »

nlp语义理解的一点儿看法

  nlp领域里,语义理解仍然是难题!   给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概念间的关系。人们在解答问题时,往往会讲述与这个问题相关的知识,这是语义理解的过程。这种机制完 »

NLP的比赛和数据集

整理了NLP领域的比赛、数据集、模型 比赛 网站 主办方(作者) decaNLP http://decanlp.com/ Salesforce CLUE https://github.com/CLUEbenchmark/CLUE 中文任务基准 GLUE https://gluebenchmark.com/tasks BioBERT https://github.com/dm »

NLP—词义消岐(WSD)的简介与实现

一、词义消岐简介   词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。   那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在。这些多义词的存在,会让人对句子的意思产生混淆,但人通过学习又是可以正确地区分出来的。   以“小米”这个词为例,如果仅仅只是说“小米”这个词语, »

NLP - 相似度计算的理论知识

我们在比较事物时,往往会用到“不同”,“一样”,“相似”等词语,这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论,究竟是相同还是不同。但是万物真的有这么极端的区分吗?在我看来不是的,生活中通过“相似度”这词来描述可能会更加准确。比如男人和女人,虽然生理器官和可能思想有些不同,但也有相同的地方,那就是都是人,就是说相似度不为0;比如石头与小草,它们对于虚拟类都是一种实体类,相似度 »

如何运用NLP技巧处理负面情绪

情绪本身没有好坏之分。情绪就如世上所有事物一样,应以对人生的成功快乐有没有贡献为衡量标准,有没有这个效果决定了一种情绪状态是好还是坏。 传统上,我们认为某些情绪是不好的,例如愤怒、悲伤,称它们为负面情绪,于是,世上就有了正面(好的)情绪和负面(不好的)情绪。 有人因为压力太大,受不了情绪上的折磨,学会了“麻木感觉”,意思是不再对事情有同样的情绪反应。 这是一种保护机制,短期如此,是没有问题的 »

01-NLP-04-02用RNN做文本生成RNN

不用one-hot来表示输入x,是因为想要用word2vec 将每个单词得到vector,将每个vector拼接成一个sequence。[[w1],[w2],[w3]] 举个小小的例子,来看看LSTM是怎么玩的 我们这里不再用char级别,我们用word级别来做。 第一步,一样,先导入各种库 In [118]: import os import numpy as np impo »

nlp 电商评论处理 -史诗级长文

#auther bioamin #nlp of 电商评论 #-*- conding = utf-8 -*- import numpy as np import pandas as pd #画图的包 import matplotlib.pyplot as plt import seaborn as sns plt.rcParams['font.sans-serif']=['SimHei'] plt »

NLP—中文预处理之繁简体转换及获取拼音

  在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。   首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可: langconv.py 地址: https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py »

学习NLP:《精通Python自然语言处理》中文PDF+英文PDF+代码

自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。 推荐学习自然语言处理的一本综合学习指南《精通Python自然语言处理》,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析和NLP系统评估等主题。 学习参考: 《精通Python自然语言处 »