Paper: https://arxiv.org/abs/2409.17692
核心:多模态输入输出,这里的多模态包括了文本、图像、语音和视频,相比AnyGPT多了视频。

国外的一个项目,看了一下比较简单,于是也拿过来玩儿一下。由于原项目没支持中文,就简单支持了一下,顺便简单地重构了一下代码。

编者按:本文内容来自Datawhale《AI第一课》,目标是向普通大众传播AI相关知识。本文是第一稿,太过于偏技术,因此需要重新修改打磨。不过从有编程背景读者的角度看我觉得内容尚可,特记录在此。同时也是便于后面对比最终内容和最初内容的差别,提升自己科普内容创作方面的技巧。
本节主要介绍LLM(Large Language Model,大语言模型)的基础科普。大纲如下:
本文涉及到上面提到的重要概念时,会以中文表述,括号内的是对应的英文表达。
编程语言环境相关备忘(我只想复制粘贴)。
StableLM 一直致力于小模型(从7B、3B 到 1.6B),不过 License 商用有些限制,H2O-Danube 是 Apache2.0 的小模型(1.8B),整体指标略逊于 StableLM。本文通过这两篇 Paper,记录小模型的预训练。