NLP

阿里巴巴稀疏模型训练引擎-DeepRec

DeepRec从2016年起深耕至今,支持了淘宝搜索、推荐、广告等核心业务,沉淀了大量优化的算子、图优化、Runtime优化、编译优化以及高性能分布式训练框架,在稀疏模型的训练方面有着优异性能的表现。本文将围绕背景、功能介绍、开源等方面系统介绍阿里巴巴DeepRec稀疏模型训练引擎。 ... »

espnet中的transformer和LSTM语言模型对比实验

摘要:本文以aishell为例,通过对比实验为大家介绍transformer和LSTM语言模型。 本文分享自华为云社区《espnet中的transformer和LSTM语言模型对比 以aishell为例》,作者: 可爱又积极 。 NLP特征提取器简介 - RNN和Transformer 近年来,深度 ... »

NLP 自然语言处理实战

自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,用于分析理解机器与人之间的交互,常用的领域有:实体识别、文本纠错、情感分析、文本分类、关键词提取、自... ... »

[转] 自然语言处理全家福:纵览当前NLP中的任务、数据、模型与论文

from: https://zhuanlan.zhihu.com/p/38445982 选自Github,作者:Sebastian Ruder,机器之心编译。 自然语言处理有非常多的子领域,且很多都没有达到令人满意的性能。本文的目的是追踪自然语言处理(NLP)的研究进展,并简要介绍最常见 NLP 任务的当前最佳研究和相关数据集。作者 Sebastian Ruder 在文中覆盖了传统的和核心的 »

搜索NLP行业模型和轻量化客户定制

​简介:开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用。 特邀嘉宾: 徐光伟(昆卡)--阿里巴巴算法专家 搜索链路 这是一个完整的从查询词到搜索结果的链路, 其中NLP算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP 算法模块,如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等。系统是结合文本和语 »

NLP文本清理时常用的python小函数

1 # coding = utf-8 2 import re 1. 清理杂七杂八字符 1 ''' 2 [a-zA-Z0-9] 字母数字 3 [\u4e00-\u9fa5] 汉字的utf-8 code范围 4 ''' 5 # 保留字母、数字、汉字和标点符号(),.!?": 6 def remove_others(s): 7 return re.sub(r'[^a-z »

运用TensorFlow处理简单的NLP问题

当前“人工智能”是继“大数据”后又一个即将被毁的词,每家公司都宣称要发力人工智能,就跟4-5年前大数据一样,业界叫的都非常响亮,不禁想到之前一个老外说过的话: Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else »

NLP:Gensim库之word2vec

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 1、实现类 class gensim.models.Word2Vec(sentences=None, size=100, »

【NLP】基于自然语言处理角度谈谈CRF(二)

作者:白宁超 2016年8月2日21:25:35 【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大量研究整理汇总成体系知识。 »

【nlp】BLEU、ROUGE评价指标

bleu,Rouge一般在翻译里用 bleu bltk工具箱中就有bleu的评估指标实现 bleu通过比较预测语句和参考语句里的n-gram(从1-gram到4-gram)的重合程度。显然,重合程度越高,译文的质量就高。1-gram主要是用于比较单个单词的准确率,而2~4-gram则用于衡量句子的流畅性。 这个评价指标,关心的是预测语句的准确率,而没有考虑到预测语句的缺失率。 即计算的时候,用预测 »

重磅!15套免费的自然语言处理NLP课程及经典教材分享!

https://blog.csdn.net/weixin_40400177/article/details/104601773   15套免费的NLP课程及经典教材分享! 1、自然语言处理圣经---《自然语言处理综论》 2、视频课程《深度学习与自然语言处理-2018》 3、Natural Language Processing (NLP) 4、吴恩达经典课程 - Machine »

做深度学习应该如何选服务器?NLP、图像等

待补充 【参考博客】 【https://blog.csdn.net/mergerly/article/details/83753056】 【简书的一篇博客】 【简书的另一篇博客-讲组装机的】 【讲如何搭配深度学习服务器的博客】 【其他参考博客1】【博客2】【博客3】 【https://bbs.hupu.com/23084290.html】 【https://blog.csdn.net/u0116 »

【NLP新闻-2013.06.03】New Book Where Humans Meet Machines

英语原文地址:http://nlp.hivefire.com/articles/share/39865/ 注:本人翻译NLP新闻只为学习专业英语和扩展视野,如果翻译的不好,请谅解! (我挺想看这本书的,但是一查价格,贵的离谱…唉…) 自然语言处理的领头人、LinguaSys Co-Founders 创始人Brian Garr 、Vadim Berman 对新书的贡献《Where Humans Me »

Atitit 歌曲年份抓取的nlp ai项目 原理通过百度搜索,抓取第一页数据,正则数字,过滤年份。。 显示格式。。歌曲,年份,年份周围前后40字符,方便核对 通过百科抓取比较准确 红尘情歌

Atitit 歌曲年份抓取的nlp ai项目   原理通过百度搜索,抓取第一页数据,正则数字,过滤年份。。   显示格式。。歌曲,年份,年份周围前后40字符,方便核对     通过百科抓取比较准确   红尘情歌 { "中文名称":"红尘情歌", "所属专辑":"梦中情人", "歌曲时长":"04:05", "发行时间":"2012 »