Whisper基于OpenAI大模型语音识别.Net工程源码 离线视频字幕生成器源码

正文概述 云码哥   2023-12-1   1.23K

OpenAI 最近发布了一个名为 Whisper 的语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是一个免费的开源模型。

什么是Whisper语言识别模型

Whisper 是一种自动语音识别模型,基于从网络上收集的 680,000 小时多语言数据进行训练。根据 OpenAI的介绍,该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外,它还支持 99 种不同语言的转录和从这些语言到英语的翻译。

Whisper基于OpenAI大模型语音识别.Net工程源码 离线视频字幕生成器源码

Whisper 架构是一种简单的端到端方法,实现为利用Transformer模型的编码器-解码器。输入音频被分成 30 秒一段的模块,然后转换成 log-Mel 频谱图,然后传递到编码器。编码器来计算注意力,最后把数据传递给解码器,解码器被训练来预测相应的文本,并添加特殊标记,这些标记用来单个模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

Whisper基于OpenAI大模型语音识别.Net工程源码 离线视频字幕生成器源码

源码下载地址

https://github.com/openai/whisper

Windows软件app源码:https://github.com/Const-me/Whisper

已编译可直接运行的软件包和模型包下载:https://pan.baidu.com/s/1x8evp0waq7tSjnUFcKFHlA?pwd=ism1

Whisper基于OpenAI大模型语音识别.Net工程源码 离线视频字幕生成器源码

 

本站大部分资源收集于网络以及网友投稿,本不保证资源的完整性以及安全性,请下载后自行测试。
本站资源仅供下载者学习技术,版权归资源原作者所有,请在下载后24小时之内自觉删除。
本站资源仅供下载者学习IT编程开发技术,请遵守国家法律法规,严禁用于非法用途。
若作商业用途,请购买正版,由于未及时购买正版发生的侵权行为,与本站无关。
如您是版权方,本站源码有侵犯到您的权益,请邮件联系331752841@qq.com 删除,我们将及时处理!