NLP

全都会!预测蛋白质标注!创建讲义!解释数学公式!最懂科学的智能NLP模型Galactica尝鲜 ⛵

本文浅试Meta开源的大型AI语言模型『Galactica』,带大家体验安装与多场景使用。Galactica被称为“最懂科学的智能NLP模型”,能够预测蛋白质标注!创建讲义!解释数学公式!全都会! ... »

带你了解NLP的词嵌入

摘要:今天带领大家学习自然语言处理中的词嵌入的内容。 本文分享自华为云社区《【MindSpore易点通】深度学习系列-词嵌入》,作者:Skytier。 1 特征表示 在自然语言处理中,有一个很关键的概念是词嵌入,这是语言表示的一种方式,可以让算法自动的理解一些同类别的词,比如苹果、橘子,比如袜子、手 ... »

huaweiyun

词向量word2vec(图学习参考资料)

介绍词向量word2evc概念,及CBOW和Skip-gram的算法实现。 项目链接: https://aistudio.baidu.com/aistudio/projectdetail/5009409 在自然语言处理任务中,词向量(Word Embedding)是表示自然语言里单词的一种方法,即把 ... »

噢!查重原来是这样实现的啊!

项目中有一个查重的需求,就类似论文查重这种的需求,我的组长已经写好了这个 Demo 了,我也挺感兴趣的,所以也看了看是如何实现的,看完后,感慨一声,噢!原来是这样实现的啊!。现在呢,就记录下我从中学到的知识! ... »

god23bin NLP

爬取博客园每周热点并试用jieba和wordcloud进行分词和生成词云

说来惭愧,来到博客园也好几年了,养成了时不时来刷刷首页,学习下先进知识的习惯,不过一直都是纯输入没有输出,今天才发现我竟然连博客都没开通。恰好这两天拿博客园练手做了个小项目,就以这个作为开始,写下在园子里的第一篇博客吧。 1. 项目背景 前阵子因为项目需要,学习了一段时间的知识图谱(Knowledg ... »

自然语言处理NLP程序包(NLTK/spaCy)使用总结

NLTK和SpaCy是NLP的Python应用,提供了一些现成的处理工具和数据接口。下面介绍它们的一些常用功能和特性,便于对NLP研究的组成形式有一个基本的了解。 NLTK Natural Language Toolkit (NLTK) 由宾夕法尼亚大学开发,提供了超过50种语料库,以及一些常用的文 ... »

NLP新手入门指南|北大-TANGENT

开源的学习资源:《NLP 新手入门指南》,项目作者为北京大学 TANGENT 实验室成员。 该指南主要提供了 NLP 学习入门引导、常见任务的开发实现、各大技术教程与文献的相关推荐等内容,是一份非常全的适合新手小白初学入门的权威指南。 值得mark! 以下正文: 本教程供新加入 TANGENT 实验 ... »

NLP(十九) 双向LSTM情感分类模型

原文链接:http://www.one2know.cn/nlp19/ 使用IMDB情绪数据来比较CNN和RNN两种方法,预处理与上节相同 from __future__ import print_function import numpy as np import pandas as pd from keras.preprocessing import sequence from keras. »

NLP任务:给定一句话,找出这句话中你想要的关键词,包括起始结束索引

  在实际的nlp实际任务中,你有一大堆的人工标注的关键词,来新的一句话,找出这句话中的关键词,以便你以后使用,那如何来做呢?   1)用到正则的 finditer()方法,返回你匹配的关键词的迭代对象,包含起始结束索引   2)增强list循环,提取数据 代码如下: import re s = 'dengyexun' idx = [i.start() for i in re.finditer( »

【NLP模型笔记】GloVe模型简介

GloVe模型 glove模型的参考资料链接如下: https://nlp.stanford.edu/projects/glove/ 论文链接(pdf)如下: https://nlp.stanford.edu/pubs/glove.pdf GloVe: Global Vectors for Word Representation [Jeffrey Pennington], [Richard S »

【NLP】BLEU值

为了解决这个问题,首先需要知道BLEU值是如何计算出来的。 BLEU全称是Bilingual Evaulation Understudy。其意思是双语评估替补。所谓Understudy(替补),意思是代替人进行翻译结果的评估。 BLEU的思想基于Count based Model,尽管它并不完美,但它提供了一种非常有效的以单一数字指标评估机器翻译结果的方法。 下面以一个例子说明BLEU的计算。 假 »

【NLP】Python3.6.5中使用 Stanford NLP工具包进行词性标注

1. 写在前面 《NLP汉语自然语言处理原理与实践》(郑捷著)是一本专业研究自然语言处理的书籍,本文作者在阅读这本书,调试其中的程序代码时,发现由于版本升级,导致其中的某些程序无法执行。本文针对书中第24页“安装StanfordNLP并编写Python接口类”部分的程序,列出在版本升级后出现的问题,以及相应的解决方案。本文也可以单独作为学习StanfordNLP工具包的学习文档。   2. 开发环 »

nlp语义理解的一点儿看法

  nlp领域里,语义理解仍然是难题!   给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概念间的关系。人们在解答问题时,往往会讲述与这个问题相关的知识,这是语义理解的过程。这种机制完 »

NLP的比赛和数据集

整理了NLP领域的比赛、数据集、模型 比赛 网站 主办方(作者) decaNLP http://decanlp.com/ Salesforce CLUE https://github.com/CLUEbenchmark/CLUE 中文任务基准 GLUE https://gluebenchmark.com/tasks BioBERT https://github.com/dm »

NLP—词义消岐(WSD)的简介与实现

一、词义消岐简介   词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。   那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在。这些多义词的存在,会让人对句子的意思产生混淆,但人通过学习又是可以正确地区分出来的。   以“小米”这个词为例,如果仅仅只是说“小米”这个词语, »