| 开发者人工智能社区 --开发者开聊

大型音频模型资源

developer.chat

7 February 2024

https://github.com/architectpub/EmotiVoice

EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Engine

https://github.com/OpenTalker/SadTalker

[CVPR 2023] SadTalker：Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

https://github.com/tensorchord/Awesome-LLMOps

An awesome & curated list of best LLMOps tools for developers

https://github.com/RVC-Boss/GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

阅读更多关于大型音频模型资源
登录发表评论

【Blitz 】Blitz 学习之路

developer.chat

23 January 2024

想更好地使用Blitz开发应用程序，但不知道从哪里开始？你来对地方了。

本文档的灵感来源于前端开发人员路线图。它策划了关于概念和想法、工具和图书馆以及历史和琐事的材料，这些材料有助于更好地构建应用程序。它是为闪电战量身定制的，但大多数都会很乐意应用于其他地方。

信息

标记为的链接🥷 是先进的。如果你正在涉足网络开发，完全可以跳过它们。

阅读更多关于【Blitz 】Blitz 学习之路
登录发表评论

【转录实时音频流】使用OpenAI Whisper近乎实时地转录实时音频流，用于关键字监控

developer.chat

21 January 2024

在这篇文章中，我演示了如何使用Python中的OpenAI Whisper近乎实时地转录实时音频流。我们这样做是为了监视流中的特定关键字。此外，转录后的文本会记录时间戳以供进一步使用。通过对转录的文本进行模糊匹配，我们可以找到对关键词的提及。然后，我们通过信号信使向包含口语段落相关部分的团体或个人触发一条信息。

背景

这是一个在周末建立的快速POC：为了赢得比赛，我想监控当地电台是否提到了一些关键词。这需要迅速完成，这产生了一个简单的解决方案。此外，它必须尽可能节约资源，以最大限度地降低基础设施成本。虽然它并不是以稳定性为主要关注点来构建的，但它实际上在几周内表现完美，没有任何停机时间。因此，目标实现了！

所有代码在此回购中都可用。在下文中，我将介绍解决方案的总体结构，并解释代码的一些相关部分。

概述

该解决方案由三部分组成：

save_stream.py从实时音频流中以30秒为单位连续保存.mp3文件

transcript.py使用OpenAI Whisper永久转录每个音频块。然后，它使用模糊匹配来监控口语中的关键词。在比赛中，它调用msg_group_via_signal.sh

【语音识别】如何运行OpenAI的Whisper语音识别模型

developer.chat

21 January 2024

OpenAI的Whisper模型可以对多种语言进行语音识别。在查看此简单指南中的性能分析之前，我们将学习如何运行Whisper。

昨天，OpenAI发布了其Whisper语音识别模型。Whisper加入了目前可用的其他开源语音到文本模型，如Kaldi、Vosk、wav2vec 2.0等，并与最先进的语音识别结果相匹配。

在本文中，我们将学习如何安装和运行Whisper，还将深入分析Whisper的准确性、推理时间和运行成本。

#如何运行OpenAI的Whisper

20 January 2024

Grok

Tuned for straight answers (safety off)

Model: Grok-1

埃隆·马斯克已经在太空竞赛中了，为什么不加入人工智能竞赛呢？经过四个月闪电般的开发速度，从零到准备就绪，与领先的模型相比，Grok可以带来有希望的结果。但除了技术方面的东西，它真正吸引人的是细节。

让我首先说，我还没能测试它。我不太喜欢推特（或Xer），所以我不能订阅X Premium+计划，因为我已经很长时间没有活动了。你将要阅读的是我在网上消费的新闻和观点文章的综述。我强烈鼓励你也投身其中；非常有趣。

Grok应该尽可能直白地说出真相。撇开哲学问题不谈，这意味着人工智能不会像GPT或Claude那样受到同样的安全措施的阻碍。它不会回避回答你脑海中的任何问题。这是双向的，所以很难在这里做出判断。

【聊天机器人】2024年最佳人工智能聊天机器人(二)

developer.chat

20 January 2024

Llama 2

Open license AI model

Model: Meta's Llama 2

热门内容

今日:

总体:

最近浏览：

标签（标签）

大型音频模型资源

https://github.com/architectpub/EmotiVoice

https://github.com/OpenTalker/SadTalker

https://github.com/tensorchord/Awesome-LLMOps

https://github.com/RVC-Boss/GPT-SoVITS

【Blitz 】Blitz 学习之路

【转录实时音频流】使用OpenAI Whisper近乎实时地转录实时音频流，用于关键字监控

【语音识别】如何运行OpenAI的Whisper语音识别模型

#如何运行OpenAI的Whisper

步骤1：安装依赖项

【聊天机器人】2024年最佳人工智能聊天机器人(七)

GitHub Copilot

For coding autocomplete

【聊天机器人】2024年最佳人工智能聊天机器人(六)

Character.AI

For fun

【聊天机器人】2024年最佳人工智能聊天机器人(五)

ZenoChat

For content writing

【聊天机器人】2024年最佳人工智能聊天机器人(四)

KoalaChat

For searching the web and generating content

【聊天机器人】2024年最佳人工智能聊天机器人(三)

Grok

Tuned for straight answers (safety off)

【聊天机器人】2024年最佳人工智能聊天机器人(二)

Llama 2

Open license AI model

标签（标签）

Search

https://github.com/architectpub/EmotiVoice

https://github.com/OpenTalker/SadTalker

https://github.com/tensorchord/Awesome-LLMOps

https://github.com/RVC-Boss/GPT-SoVITS

#如何运行OpenAI的Whisper

步骤1：安装依赖项

For coding autocomplete

For fun

For content writing

For searching the web and generating content

Tuned for straight answers (safety off)

Open license AI model