OMNI论文速览(2025)

OMNI相关论文。

202503 Phi-4-Mini Microsoft ☆

3.8B+高质量数据+模态级Lora达到SLM的SOTA。

模型架构

值得注意的是 25% 的注意力头维度不受 RoPE 影响(Fractional RoPE )。

特征处理

为了使模型能够有效和高效地处理不同分辨率的图像,提出动态多裁剪策略:

  • 首先,原始尺寸除以裁剪尺寸计算每边的裁剪数量。
  • 如果总裁剪数在最大数字范围内(预训练16,SFT36),稍微调整图像大小使其符合计算图像裁剪所给出的尺寸。
  • 否则,通过匹配最佳纵横比来找到裁剪数。

音频:80 维对数 Mel 滤波器组特征,帧率为 10 毫秒(每 10 毫秒提取一个特征帧)。

多模态训练过程

  • Vision Training(4阶段)
    • Projector Alignment:projector,对齐文本。
    • Joint Vision Training:projector+encoder联合训练,encoder是SigLIP-400M。
    • Generative VisionLanguage Training:LoRA+projector+encoder,Single-Frame SFT。
    • Multi-Frame Training:SFT,encoder冻结,长度扩到64k。
  • Speech and Audio Training(2阶段)
    • pre-training:ASR数据,projector+encoder,对齐到文本空间,encoder从一个ASR模型初始化。
    • post-training:encoder冻结,不同长度(30min 22.5k token、30s 375 token),多任务SFT。
  • Vision-speech Joint Training(2阶段)
    • 冻结audio encoder、audio projector,微调visual projector、visual encoder和LoRA visual。
    • vision-speech SFT data。
  • Reasoning Training(3阶段)
    • 60B CoT Token继续训练
    • 高质量SFT
    • DPO

数据

  • Language
    • Pre-training:5Trillion,更好的过滤、更好的数学和代码数据、更好的合成数据、混合更多推理类数据。
    • Post-training:更多样化的Function Call和摘要数据。合成大量指令遵循数据,代码增加完形填空任务。
    • Reasoning training:从大推理模型合成大量CoT数据,覆盖不同领域和难度。采样时使用规则+模型拒绝方法丢弃不正确的生成,然后放回。正确和错误的回答对构成DPO数据。
  • Vision-language
    • Pre-training:0.5T图像-文本文档、图像-文本对、图像锚定数据、来自 PDF 和真实图像 OCR 的合成数据集,以及用于图表理解的合成数据集。这个阶段只考虑文本Token损失,不考虑图像Token的损失。
    • SFT:0.3T文本 SFT 数据集、公开的多模态指令微调数据集和大规模内部多模态指令微调数据集的组合。覆盖不同主题和任务,包括对通用自然图像的理解、图表、表格和示意图的解析与推理、PowerPoint分析、OCR、多图对比、视频摘要以及模型安全性。
  • Vision-speech
    • 多样化的合成数据(将vision-language的SFT数据用TTS将用户query从文本转为音频),覆盖单帧和多帧。
    • 合成音频用ASR模型识别后计算WER,用来过滤,保证质量。
  • Speech and Audio
    • Pre-training:200万小时、8种语言音频+ASR文本。
    • Post-training:多种任务,包括自动语音识别 (ASR) 、自动语音翻译 (AST) 、语音问答 (SQA) 、语音查询问答 (SQQA) 、语音摘要 (SSUM) 和音频理解 (AU) 。格式:<∣user∣><audio>{task prompt}<∣end∣><∣assistant∣>{label}<∣end∣>
      • ASR:40k小时,28M样本。
      • AST:30k小时,28M样本。
      • SQA+SQAQA:26M样本。
      • SSUM:1M样本,仅英文,每个最长30分。
      • AU:Speech+Music,17M样本。