苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力-新书

新书10月13日消息，近日，苹果推出了300亿参数的多模态AIMM1.5，这个版本是在前代MM1架构的基础上开发的。

该模型继续遵循数据驱动的训练原则，重点探讨不同训练周期中混合各种数据对模型性能的影响。相关模型文档已在Hugging中 Face上发布。

MM1.5提供从10亿到300亿的参数规模，具有图像识别和自然语言推理能力。

在新版本中，苹果的研发人员改进了数据混合策略，大大提高了模型理解多文本图像、视觉引用和定位以及多图像推理的能力。

参考论文可以看出，在MM1.5的持续预训练阶段，团队引入了高质量的OCR数据和合成图像描述，显著提高了模型对包含大量文本的图像的理解。

此外，在监督微调阶段，研究人员深入分析了不同数据类型对模型性能的作用，优化了视觉指令微调数据的混合模式，使小型模型（如10亿、30亿参数版）发挥良好，实现了更高的效率。

值得一提的是，苹果还推出了专门用于视频理解的MM1.5-Video模型和专门处理移动设备用户界面（UI）理解MM1.5-UI模型。

其中，MM1.5-UI模型有望成为未来iOS背后的IOS“苹果牌”AI，它可以处理各种视觉引用和定位任务，总结屏幕上的功能，或者通过与用户的对话进行交互。

虽然MM1.5模型在许多基准测试中表现良好，但苹果团队仍计划进一步整合文本、图像和用户交互数据，设计更复杂的架构，以提高模型对移动设备UI的理解能力，使“苹果牌”人工智能更强大。

苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力

[本文结尾]如需转载，请务必注明出处：新书

责任编辑：文祥

文章内容报告

苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力