自然语言处理

你有一份斗破苍穹词库,请查收

对于一个特定的领域而言,我们可能需要其相关的一些词语,这些词语可以用来进行分词、关键词提取、主题分析等。那么,如何去获得这些词语呢?本文接下来将通过斗破苍穹小说来介绍新词发现。 ... »

基于英雄联盟的知识图谱问答系统

介绍 代码地址:https://github.com/taishan1994/lol_knowledge_graph_qa 该文介绍了英雄联盟知识图谱的构建以及搭建一个简单的基于知识图谱的英雄联盟问答系统。需要提前安装好以下依赖: py2neo版本:py2neo-2021.2.3 neo4j版本:n ... »

Transformer算法完全解读

2017年6月谷歌发布论文《Attention is All You Need》,提出Transformer这一引燃机器学习领域的算法。数年过去,Transformer算法在计算机视觉、自然语言处理等众多应用领域展现了极为惊艳的表现。   大家都是神经网络,为何你的腰椎间盘却如此突出?   可以... ... »

知识图谱系列---自然语言处理---分词词向量与文本分类

【分词与词向量】 主要是 jieba 和 gensim.models.word2vec 使用 【结巴分词资料汇编】结巴中文分词官方文档分析(1) 【结巴分词资料汇编】结巴中文分词源码分析(2) 【结巴分词资料汇编】结巴中文分词基本操作(3) python版本word2vec实现 python版本doc2vec实现 参数数据源:http://mattmahoney.net/dc/text8.zip »

中文自然语言处理中去掉英文字符、数字和特殊字符的便捷用法

   做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便 1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub »

学习NLP:《精通Python自然语言处理》中文PDF+英文PDF+代码

自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。 推荐学习自然语言处理的一本综合学习指南《精通Python自然语言处理》,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析和NLP系统评估等主题。 学习参考: 《精通Python自然语言处 »

如何找到自己心仪又合适的工作???(自然语言处理)

我是一个从本科就读建筑工程类专业夸到计算机专业读研的计算机小白!!!(To be or not to be ,this is a question !!!) 研一一年在计算机专业领域的摸爬滚打中,渐渐了解了一些计算机专业的基础知识。但是作为一个既不是计算机专业大类,软件工程,网络工程等,也不是一些统计学,数学系,机械工程类的专业。着实会在寻找工作方面头痛万分。 这几天是18级秋招的结尾了,有一个师 »

自然语言处理---新词发现---微博数据预处理2

好吧,我low了,用Java一行行读进行处理,结果还是虚拟机内存溢出: Error occurred during initialization of VM Incompatible minimum and maximum heap sizes specified 换python,曾经找过python一行行读入数据的资料,没用对那方法,以为没有,low了。加上时间有些久没用python,进度有 »

python 自然语言处理(五)____WordNet

WordNet是面向语义的英语词典,与传统辞典类似,但结构更丰富。nltk中包括英语WordNet,共有155287个单词和117659个同义词。 1.寻找同义词 这里以motorcar为例,寻找它的同义词集。 1 >>> from nltk.corpus import wordnet as wn 2 >>> wn.synsets('motorcar') »

中文自然语言处理(NLP)(二)python jieba模块的进一步学习和xlrd模块

  上一次链接:中文自然语言处理(NLP)(一)python jieba模块的初步使用    续上次对于jieba模块的介绍,这次主要是一些jieba模块的进一步的应用,以及在这次的项目里面和xlrd模块结合起来的应用。 1.jieba带词性的分词   jieba的词性标注posseg:词性标注也叫此类标注,pos tagging是part-of-speech tagging的缩写   要使用ji »

自然语言处理----词袋模型

词袋模型是一种表征文本数据的方法,可以从文本数据中提取出特征并用向量表示.词袋模型主要包括两件事 构建词汇表 确定度量单词出现的方法 词袋模型不考虑单词在文本中出现的顺序,只考虑单词是否出现. 具体以"双城记"开头为例 收集数据 It was the best of times, it was the worst of times, it was the age of wisdom, it »

自然语言处理要解决的问题

自然语言处理要解决的问题: 其实,自然语言处理的应用非常广泛,如: 垃圾邮件识别 通过自动分析邮件中的文本内容,判断该邮件是否垃圾邮件。 中文输入法 通过识别输入的拼音字符串,识别用户希望输入的汉字。 机器翻译 将文本从一种语言转成另一种语言,如中英文机器翻译。 自动问答、客服机器人 用文本输入一个问题,再返回一段文本作为问题的答案。 …… 这里简单罗列了一些NLP的常见领域: »

Python自然语言处理学习笔记(47):5.8 小结

5.8 Summary 小结 • Words can be grouped into classes, such as nouns, verbs, adjectives, and adverbs. These classes are known as lexical categories or parts-of-speech. Parts-of-speech are assigned short »

中文自然语言处理(NLP)(四)运用python二维字典和jieba实现词频的统计

  前三次链接:中文自然语言处理(NLP)(三)运用python jieba模块计算知识点当中关键词的词频   问题叙述见上一次随笔。   上次留下来的问题是如果只使用字典功能来统计词频,会出现需要构建两个字典的问题,会浪费空间。在进行了一段时间的python知识的学习之后,发现可以创建一个二维字典(值为这个词在这个知识点下的题目中出现的次数)来存储数据,这样就可以在一个字典当中查询关键词-知识点 »

Python自然语言处理---信息提取

1.数据 目前的数据总体上分为结构化和非结构化的数据。结构化的数据是指实体和关系的规范和可预测的组织。大部分的需要处理的数据都属于非结构化的数据。 2.信息提取 简言之就是从文本中获取信息意义的方法。信息提取目前已经应用于很多领域,比如商业智能,简历收获,媒体分析,情感检测,专利检索及电子邮件扫描。当前研究的一个特别重要的领域是提取出电子科学文献的结构化数据,特别是在生物和医学领域。 3.信息提取 »

Python 自然语言处理笔记(一)

一. NLTK的几个常用函数 1. Concordance   实例如下: >>> text1.concordance("monstrous") Displaying 11 of 11 matches: ong the former , one was of a most monstrous size . ... This came towards us , ON OF THE »

《Python自然语言处理》

《Python自然语言处理》 基本信息 作者: (美)Steven Bird    Ewan Klein    Edward Loper    出版社:人民邮电出版社 ISBN:9787115333681 上架时间:2014-6-13 出版日期:2014 年6月 开本:16开 页码:508 版次:1-1 所属分类:计算机 > 软件与程序设计 > Python 更多关于》》》《Pyth »

python 自然语言处理(六)____N-gram标注

1.一元标注器(Unigram Tagging) 一元标注器利用一种简单的统计算法,对每个标注符分配最有可能的标记。例如:它将分配标记JJ给词frequent,因为frequent用作形容词更常见。一元标注器的行为与查找标注器相似,建立一元标注器的技术,称为训练。在下面的代码例子中,“训练”一个一元标注器,用它来标注一个句子,然后进行评估。 1 >>> from nltk.c »

python and 我爱自然语言处理

  曾经因为NLTK的 缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离 开腾讯创业后,第一个作品课程图谱也 是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本 处理,科学计算,机器学习和数据挖掘领域,有很多很 »