全模态不降智，性能达到开源SOTA

1、视觉编码器：SigLIP-ViT-L/16 优化

标准 ViT (Vision Transformer) 将图像分割为 16×16 像素块，而 SigLIP 通过改进损失函数提升弱监督学习效果。

SigLIP 损失函数：相比传统对比学习使用 softmax 归一化，SigLIP 使用 sigmoid 激活，对噪声标签更鲁棒，特别适合美团内部海量弱标注数据。

SigLIP 损失函数定义：
$\mathcal{L}_{\text{siglip}} = -\sum_{i=1}^{N} \sum_{j=1}^{M} \log \sigma(s \cdot y_{ij} \cdot \langle E_{\text{img}}(\mathbf{x}_i), E_{\text{txt}}(\mathbf{t}_j) \rangle)$

其中：

$N$ 为图像数量， $M$ 为文本数量
$y_{ij} \in \{-1, 1\}$ 为图像-文本对的匹配标签
$s$ 为缩放因子（通常设为 10）
$\sigma(z) = 1/(1+e^{-z})$ 为 sigmoid 函数
$E_{\text{img}}, E_{\text{txt}}$ 为图像/文本编码器

2、音频编码器：Whisper 蒸馏优化

完整 Whisper-large-v3 模型含有 30 层 encoder，对端侧部署过于庞大。LongCat 采用分层蒸馏策略：

保留前 8 层 transformer (占原始性能的 89%)
使用完整 Whisper 作为教师模型，通过知识蒸馏迁移能力
添加声学场景分类头，增强非语音理解

蒸馏损失函数：
$\mathcal{L}_{\text{distill}} = \alpha \mathcal{L}_{\text{CE}}(y, \hat{y}) + \beta \text{KL}(p_{\text{teacher}} \| p_{\text{student}})$
其中：

$\mathcal{L}_{\text{CE}}$ 为标准交叉熵损失
$\text{KL}$ 为 KL 散度，衡量教师与学生输出分布差异
$\alpha=0.7, \beta=0.3$ 为平衡系数

欢迎使用66资源网
1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 如遇到加密压缩包，请使用WINRAR解压,如遇到无法解压的请联系管理员！
7. 本站有不少源码未能详细测试（解密），不能分辨部分源码是病毒还是误报，所以没有进行任何修改，大家使用前请进行甄别！
66源码网 » 全模态不降智，性能达到开源SOTA