使用 OpenAI 的语音识别 Whisper 从你最喜欢的电影和动漫中创建你自己的英语教材

OpenAI 的 Whisper 是一种开源工具，据说能够以与人类相同的准确度识别语音。

在这篇文章中，作为 Whisper 的一个稍微不寻常的使用方式，你可以使用“你什么时候开始说，你什么时候说完？”的时间数据，从你喜欢的视频中剪切和粘贴视频，创建你自己的英语教材。输出字幕文件。这里是怎么做的。

你可以制作这样的视频教材

首先，我想介绍一下我自己使用 Whisper 制作的英语教材。和《英语汉农》一样，是反复练习相同英语句子的教材。

(C) Tsugumi Ohba、Takeshi Obata/集英社、VAP、Madhouse、NTV
引自《死亡笔记 / 死亡笔记完整版 DVD-BOX》

(C) Tsugumi Ohba、Takeshi Obata/集英社、VAP、Madhouse、NTV
引自《死亡笔记 / 死亡笔记完整版 DVD-BOX》

识别准确度验证

我们使用 Netflix 的《死亡笔记》的字幕数据来验证识别准确率是否足以作为教材使用。识别模型使用基本模型。

(C) Tsugumi Ohba、Takeshi Obata/集英社、VAP、Madhouse、NTV
引自《死亡笔记 / 死亡笔记完整版 DVD-BOX》

在这个长长的英文句子中存在三个基本的误认。似乎没有问题。

创建过程

有两种方法，一种是从浏览器上传单个 mp4 文件的简单试用程序，另一种是从 Google Drive mp4 文件（可能有多个文件）创建以进行更全面的使用。我会解释。

尝试的简单步骤

从下面的链接打开 Google Colaboratory 并使用您的 Google 帐户登录。

https://colab.research.google.com/gist/dai-pop/7ed153eb33bbecd3f3389088a270fddd/whisper_english.ipynb

运行时 → 更改运行时类型

将硬件加速设置为 GPU

编辑源代码并设置你要练习的单词

按左上角的播放键

按“仍然运行”

从“选择文件”上传带有英语对话的 mp4 视频文件

稍等片刻，视频就准备好了。根据视频的长度，可能需要一些时间。此示例耗时 13 分 15 秒。

如何使用 Google Drive 进行全面使用

将 mp4 视频放在 Google Drive 的特定文件夹中。该示例假定它被放置在“电影”中。

打开下面的示例 URL
https://colab.research.google.com/gist/dai-pop/41664d7b2c7ec110e3253d8e0c40ca44/whisper_english_gdrive.ipynb

从上面运行每个单元格

教育视频已在 Google 云端硬盘中准备就绪
使用的工具

语音识别：OpenAI Whisperhttps://github.com/openai/whisper

视频剪切和粘贴：Videogrephttps://github.com/antiboredom/videogrep

执行环境：Google Colaboratoryhttps://colab.research.google.com/

博客文章介绍

下面的 URL 解释了一些关于非技术部分的更多信息。如果你喜欢请得到。

原创声明：本文系作者授权爱码网发表，未经许可，不得转载;

原文地址：https://www.likecs.com/show-308628058.html