大型音频模型资源
https://github.com/architectpub/EmotiVoice
EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Engine
https://github.com/OpenTalker/SadTalker
[CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
https://github.com/tensorchord/Awesome-LLMOps
An awesome & curated list of best LLMOps tools for developers
https://github.com/RVC-Boss/GPT-SoVITS
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
- 阅读更多 关于 大型音频模型资源
- 登录 发表评论
【Blitz 】Blitz 学习之路
想更好地使用Blitz开发应用程序,但不知道从哪里开始?你来对地方了。
本文档的灵感来源于前端开发人员路线图。它策划了关于概念和想法、工具和图书馆以及历史和琐事的材料,这些材料有助于更好地构建应用程序。它是为闪电战量身定制的,但大多数都会很乐意应用于其他地方。
信息
标记为的链接🥷 是先进的。如果你正在涉足网络开发,完全可以跳过它们。
【转录实时音频流】使用OpenAI Whisper近乎实时地转录实时音频流,用于关键字监控
在这篇文章中,我演示了如何使用Python中的OpenAI Whisper近乎实时地转录实时音频流。我们这样做是为了监视流中的特定关键字。此外,转录后的文本会记录时间戳以供进一步使用。通过对转录的文本进行模糊匹配,我们可以找到对关键词的提及。然后,我们通过信号信使向包含口语段落相关部分的团体或个人触发一条信息。
背景
这是一个在周末建立的快速POC:为了赢得比赛,我想监控当地电台是否提到了一些关键词。这需要迅速完成,这产生了一个简单的解决方案。此外,它必须尽可能节约资源,以最大限度地降低基础设施成本。虽然它并不是以稳定性为主要关注点来构建的,但它实际上在几周内表现完美,没有任何停机时间。因此,目标实现了!
所有代码在此回购中都可用。在下文中,我将介绍解决方案的总体结构,并解释代码的一些相关部分。
概述
该解决方案由三部分组成:
save_stream.py从实时音频流中以30秒为单位连续保存.mp3文件
transcript.py使用OpenAI Whisper永久转录每个音频块。然后,它使用模糊匹配来监控口语中的关键词。在比赛中,它调用msg_group_via_signal.sh
【语音识别】如何运行OpenAI的Whisper语音识别模型
OpenAI的Whisper模型可以对多种语言进行语音识别。在查看此简单指南中的性能分析之前,我们将学习如何运行Whisper。
昨天,OpenAI发布了其Whisper语音识别模型。Whisper加入了目前可用的其他开源语音到文本模型,如Kaldi、Vosk、wav2vec 2.0等,并与最先进的语音识别结果相匹配。
在本文中,我们将学习如何安装和运行Whisper,还将深入分析Whisper的准确性、推理时间和运行成本。
#如何运行OpenAI的Whisper
在本节中,我们将学习如何安装和使用Whisper。如果您已经启动并运行了Whisper,您可以跳到Whisper分析或更复杂的Whisper高级用法。
步骤1:安装依赖项
Whisper需要Python3.7+和最新版本的PyTorch(我们使用了PyTorch 1.12.1,没有问题)。如果您还没有Python和PyTorch,请立即安装它们。
Whisper还需要FFmpeg,一个音频处理库。如果您的计算机上尚未安装FFmpeg,请使用以下命令之一进行安装。
【聊天机器人】2024年最佳人工智能聊天机器人(七)
【聊天机器人】2024年最佳人工智能聊天机器人(六)
【聊天机器人】2024年最佳人工智能聊天机器人(五)
【聊天机器人】2024年最佳人工智能聊天机器人(四)
【聊天机器人】2024年最佳人工智能聊天机器人(三)
Grok
Tuned for straight answers (safety off)
Model: Grok-1
埃隆·马斯克已经在太空竞赛中了,为什么不加入人工智能竞赛呢?经过四个月闪电般的开发速度,从零到准备就绪,与领先的模型相比,Grok可以带来有希望的结果。但除了技术方面的东西,它真正吸引人的是细节。
让我首先说,我还没能测试它。我不太喜欢推特(或Xer),所以我不能订阅X Premium+计划,因为我已经很长时间没有活动了。你将要阅读的是我在网上消费的新闻和观点文章的综述。我强烈鼓励你也投身其中;非常有趣。
Grok应该尽可能直白地说出真相。撇开哲学问题不谈,这意味着人工智能不会像GPT或Claude那样受到同样的安全措施的阻碍。它不会回避回答你脑海中的任何问题。这是双向的,所以很难在这里做出判断。