李宏毅2020人类语言处理—P1

人类语言处理（注重speech任务）== 自然语言处理（偏重Text任务）
处理的对象：Text和Speech（语音）

Speech processing is not only speech recognition。

audio：
1 second has 16k sample points, and each point has 256 possible values.
所以没有人可以说同一段话两次

本课程聚焦近3年的发展，探讨在“硬train一发”（把数据集丢进深度学习网络训练就能解决问题）之后的进展。

nlp task

6 kinds
李宏毅2020人类语言处理—P1

ASR，automatic speech recognition，使用的seq2seq（end-to-end）不同于机器翻译的seq2seq模型。语音辨识
Text-to-Speech Synthesis 语音合成
speech separation，一个场景下多个人说话，机器如何分辨不同人的语音。
voice conversion，变声器，A的声音转出B的声音.

unsupervised voice conversion，and only one utterance from each speaker（one-shot learning）

1.speaker recognition，听声音辨别说话者 2.Keyword spotting，检测关键句（唤醒词：Hey Siri）
Text generation，used RNN，bert… its task include:Translation，Summarization，Chat-bot，Question Answer(this class focus)…

其他领域和技术

Meta learning
Learning from Unpaired Data，转换
Knowledge Graph，将学到的知识再放入模型里面
Adversarial Attack，检测是否为合成语音

相关文章：

2021-12-21
2021-09-30
2021-05-14
2021-09-15
2021-09-14
2021-09-19
2021-12-18
2021-09-02

猜你喜欢

2021-03-30
2021-12-13
2021-07-11
2021-05-12
2022-12-23
2021-10-03
2021-04-20

相关资源

下载 2021-07-14
下载 2021-06-06
下载 2021-06-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode