Whisper基于OpenAI大模型语音识别.Net工程源码离线视频字幕生成器源码

正文概述云码哥 2023-12-1 1.23K

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同，Whisper 是一个免费的开源模型。

什么是Whisper语言识别模型

Whisper 是一种自动语音识别模型，基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI的介绍，该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外，它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

Whisper基于OpenAI大模型语音识别.Net工程源码离线视频字幕生成器源码

Whisper 架构是一种简单的端到端方法，实现为利用Transformer模型的编码器-解码器。输入音频被分成 30 秒一段的模块，然后转换成 log-Mel 频谱图，然后传递到编码器。编码器来计算注意力，最后把数据传递给解码器，解码器被训练来预测相应的文本，并添加特殊标记，这些标记用来单个模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

源码下载地址

https://github.com/openai/whisper

Windows软件app源码：https://github.com/Const-me/Whisper

已编译可直接运行的软件包和模型包下载：https://pan.baidu.com/s/1x8evp0waq7tSjnUFcKFHlA?pwd=ism1

本站大部分资源收集于网络以及网友投稿，本不保证资源的完整性以及安全性，请下载后自行测试。
本站资源仅供下载者学习技术，版权归资源原作者所有，请在下载后24小时之内自觉删除。
本站资源仅供下载者学习IT编程开发技术，请遵守国家法律法规，严禁用于非法用途。
若作商业用途，请购买正版，由于未及时购买正版发生的侵权行为，与本站无关。
如您是版权方，本站源码有侵犯到您的权益，请邮件联系331752841@qq.com 删除,我们将及时处理！