VITS 论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 代码:jaywalnut310/vits: VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 一个并行的端到端TTS模型。 More →
XTTS 论文:XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model 代码:coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production 基于Tortoise的改进,自回归。本文主要关心架构。 More →
DAC 论文:High-Fidelity Audio Compression with Improved RVQGAN 代码:descriptinc/descript-audio-codec: State-of-the-art audio codec with 90x compression factor. Supports 44.1kHz, 24kHz, and 16kHz mono/stereo audio. More →
BigCodec 论文:BigCodec: Pushing the Limits of Low-Bitrate Neural Speech Codec 代码:Aria-K-Alethia/BigCodec More →
关于AI前沿的思考 上一次写关于类似(大语言模型)的思考是在去年10月份了,主要是关于LLM机理、预训练、微调等算法层面的思考。不过后面也提到了未来的方向,以及行业的思考。到今天看那些内容依然实用,而且有种“预判”逐渐成真的感觉。其实我个人很不喜欢预言、预测或诸如此类的事物,但当我们对一个行业了解的足够多、足够深时,很多时候对一些方向性问题的判断就会比较准确。 言归正传,今天正好看到了OpenAI前首席研究官Bob McGrew采访(中文版),又有了新的想法,正好也谈一谈最近的一些思考。主要围绕着采访中的主题,谈谈自己的看法。 More →