你猜怎么着?Sam Altman刚刚在DevDay主题演讲中透露了一些很棒的东西,那就是来自OpenAI的开源Whisper v3。这不仅仅是对已经令人印象深刻的Whisper v2的升级;这就像是进入了语音识别的未来。
可以将大v3想象成您熟悉的语音转文本工具,但它功能强大,能流利地使用多种语言。现在,这很重要,对吧?
但最棒的是,你不需要一些高端装备就可以使用它。如果你担心你的设置可能跟不上,我们会为你提供Replicate。
无论你家里有什么技术,这都是你体验大v3所有酷炫功能的方式。
那么,准备好看看Whisper large v3是怎么回事了吗?让我们深入了解一下为什么这是镇上的热门话题!
1.什么是Whisper-v3?
由OpenAI推出的Whisper-v3代表了语音识别技术的突破。这种被称为“大v3”的高级型号与前代Whisper v2建立在相同的架构上,但有显著的增强。与早期版本中使用的80个频率箱相比,Whisper-v3使用了128个梅尔频率箱,并包括一个新的粤语语言标记。它擅长理解和转录各种语言,使其成为语音到文本转换中各种应用的通用工具。
2. Whisper-v3如何增强语音识别?
Whisper-v3的特点与训练
- 高级架构:Whisper-v3保持了与以前的大型模型相同的基本架构,为语音识别奠定了坚实的基础。
- 增加Mel频率仓:该型号使用128个Mel频率箱,而不是早期版本中使用的80个,增强了其音频处理能力。
- 新语言符号:包括广东话的新语言符号,扩大其语言范围。
- 广泛的培训数据:使用Whisper large v2对100万小时的弱标记音频和400万小时的伪标记音频进行培训,确保广泛的语言和方言覆盖。
- 改进的错误率降低:与Whisper large v2相比,错误率降低了10%至20%,这标志着在准确性方面取得了显著进步。
- 多语言和多任务训练:该模型能够进行语音识别和语音翻译,基于多语言数据进行训练,用于多种用途。
- 预测能力:对于语音识别,它可以预测与音频相同语言的转录。对于语音翻译,它会转录成不同的语言。
3 Whisper v2与Whisper v3的主要区别是什么?
比较性能和功能
根据所提供的图像,如Common Voice 15和FLEURS数据集的性能比较图所示,以下是Whisper-v2和Whisper-v3型号之间的关键差异:
性能指标:该图显示了一个并排比较,使用条形图表示各种语言的单词错误率(WER)或字符错误率(CER)百分比。
降低错误率:在这两个数据集中,Whisper-v3通常具有较低的WER或CER百分比,这表明在大多数语言的语音识别中具有更好的性能和更少的错误。
语言覆盖率:两个版本的模型都覆盖了多种语言,但Whisper-v3显示出错误率的提高,反映了模型处理和理解不同语言和方言的能力的提高。
顶级表演者:在Common Voice 15数据集中,与Whisper-v2相比,荷兰语、西班牙语和韩语等语言的Whisper-v3的错误率明显较低。同样,在FLEURS数据集中,西班牙语、意大利语和韩语是改进最显著的语言之一。
改进范围:虽然改进因语言而异,但趋势是错误率从v2明显降低到v3。对于某些语言来说,这种改进是相当显著的,而对于其他语言来说,则更为温和。
数据集一致性:Common Voice 15和FLEURS数据集的改进趋势是一致的,加强了Whisper-v3中的整体增强。
4 Whisper-v3的技术要求是什么?
解决VRAM需求和硬件难题
好吧,让我们来分解Whisper-v3的VRAM要求,并讨论硬件有限的用户如何仍然可以参与其中。
因此,Whisper-v3就像语音识别世界上最新的超级跑车——它强大而快速。但就像超级跑车需要合适的燃料来行驶一样,Whisper-v3需要VRAM,而且需要大量的VRAM。型号越大,它消耗的VRAM就越多。以下是您对每种尺码的关注:
- 微型:只是一个约1GB的VRAM的小吃。
- 基本型号:也很瘦,需要大约1 GB。
- 小型:开始感到饥饿,需要大约2 GB。
- 中等型号:一个坚实的5GB,以保持它的运行。
- 大型型号:大型食客,需要大约10 GB的VRAM。
随着每种型号的尺寸从小到大,VRAM的需求都在增加,最大型号的最大容量为10 GB。对于那些在更老式的设置上运行的人来说,这可能是一个真正的障碍,即使是一个强大的i7 Intel CPU也可能会出现故障,发出FP16警告,基本上是说:“我需要更多的电源!
但别担心,有一个变通办法。输入Replicate。将Replicate视为一座桥梁,让您无需升级硬件即可跨越到大型机型之地。这是一个平台,让你可以通过云来利用Whisper-v3的力量。因此,即使您的系统的VRAM更为适中,您仍然可以像专业人士一样使用Replicate来转录音频。