音频Codec论文速览（2024）

Codec相关论文。

VITS

论文：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
代码：jaywalnut310/vits: VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

一个并行的端到端TTS模型。

XTTS

论文：XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
代码：coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production

基于Tortoise的改进，自回归。本文主要关心架构。

OMNI论文速览（2024）

OMNI相关论文。

DAC

论文：High-Fidelity Audio Compression with Improved RVQGAN
代码：descriptinc/descript-audio-codec: State-of-the-art audio codec with 90x compression factor. Supports 44.1kHz, 24kHz, and 16kHz mono/stereo audio.

TS3-Codec

论文：TS3-Codec: Transformer-Based Simple Streaming Single Codec

没开源代码。

BigCodec

论文：BigCodec: Pushing the Limits of Low-Bitrate Neural Speech Codec

代码：Aria-K-Alethia/BigCodec

《真希望父母读过这本书》读书笔记

周六下午和爱人一起去了天目里，散步、聊天、看风景、喝茉酸奶、吃烧鸟、去鸟屋书店读书、去饸饹面馆吃面。这是我们第二次去这里了，主要是那家面馆的面很符合我们口味，但也不能打车过去就吃个面，所以每次都要看一两个小时书。这本书就是这天我读的两本书之一，还剩最后一章没读完，我觉得问题不大，得赶紧把读过的记下来。

基础和取舍

没想到居然一年多没写这样思考性的文字了，ChatGPT后遗症有点大。去年底换工作再加上孩子出生，生活一下子变得异常充实了起来。家庭和育儿方面成长很多，从一开始的没耐心，到逐步理解包容、感同身受（无论对爱人还是孩子），一年不到时间改变了非常多。工作方面也取得了一些成果，强度和深度比此前所有工作都高了一个级别，虽然很忙，但非常开心。比较不满意的是过于忙碌导致没时间夯实基础，总感觉自己比较浮。正好国庆假期，重新整理一下思路。