苹果发表 Manzano：近乎无损融合“看图”与“绘图”的多模态 AI 模型

作者： leyunetwork / 2026年1月15日

苹果Manzano多模态AI模型核心信息总结

1. 模型概述

苹果发表名为“Manzano”的多模态AI模型，融合视觉理解（精准解析图像内容）与文本生成图像（根据文本描述创作高质量图片）两大核心功能，是苹果构建底层AI能力的关键研究成果。

2. 传统模型的核心矛盾

传统模型在“视觉理解”（依赖连续数据流，类似看视频）与“图像生成”（依赖离散数据块，类似拼图）任务中存在冲突：

要么“看得懂但画不出”（连续视觉理解能力强，但离散图像生成能力弱）；
要么“画得好但理解偏”（离散图像生成能力强，但连续视觉理解能力弱）。
根源：传统模型强行让单一系统处理两种不同信号，导致任务冲突。

3. Manzano的创新解决方案

引入三段式架构解决上述矛盾：

第一步：混合视觉分词器，同时生成连续（适合理解）和离散（适合生成）的视觉表示；
第二步：大语言模型（LLM）预测图像的语义内容；
第三步：扩散解码器将语义预测结果转化为像素级图像。

4. 性能与测试结果

功能表现：既保留强大理解能力，又具备精细绘图能力，可处理深度估计、风格迁移、图像修复等复杂任务；
复杂指令测试：在“一只鸟在大象下方飞翔”等反直觉场景中，逻辑准确性与OpenAI GPT-4o、谷歌Nano Banana模型相当；
参数规模：测试了3亿至300亿（30B）参数版本，证实模型规模扩大时仍能保持高效性能提升。

5. 应用前景

当前阶段：模型处于研究阶段，尚未直接应用于iPhone或Mac设备；
未来整合：极有可能被纳入苹果未来的“图乐园Image Playground”功能，为用户提供智能修图和图像生成能力，巩固苹果在端侧AI领域的竞争力。

参考资料

苹果官方研究论文：MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

（注：文中含广告声明及对外跳转链接，结果仅供参考。）一站式数字化解决方案服务商 —— 专业提供软件开发、网站设计、APP 与小程序开发，搭载低费率支付通道，结合创意广告设计，助力企业全链路数字化升级。

发表评论取消回复