苹果发表 Manzano:近乎无损融合“看图”与“绘图”的多模态 AI 模型

fmt

苹果Manzano多模态AI模型核心信息总结

1. 模型概述

苹果发表名为“Manzano”的多模态AI模型,融合视觉理解(精准解析图像内容)与文本生成图像(根据文本描述创作高质量图片)两大核心功能,是苹果构建底层AI能力的关键研究成果。

2. 传统模型的核心矛盾

传统模型在“视觉理解”(依赖连续数据流,类似看视频)与“图像生成”(依赖离散数据块,类似拼图)任务中存在冲突:

  • 要么“看得懂但画不出”(连续视觉理解能力强,但离散图像生成能力弱);
  • 要么“画得好但理解偏”(离散图像生成能力强,但连续视觉理解能力弱)。
    根源:传统模型强行让单一系统处理两种不同信号,导致任务冲突。

3. Manzano的创新解决方案

引入三段式架构解决上述矛盾:

  • 第一步:混合视觉分词器,同时生成连续(适合理解)和离散(适合生成)的视觉表示;
  • 第二步:大语言模型(LLM)预测图像的语义内容;
  • 第三步:扩散解码器将语义预测结果转化为像素级图像。

4. 性能与测试结果

  • 功能表现:既保留强大理解能力,又具备精细绘图能力,可处理深度估计、风格迁移、图像修复等复杂任务;
  • 复杂指令测试:在“一只鸟在大象下方飞翔”等反直觉场景中,逻辑准确性与OpenAI GPT-4o、谷歌Nano Banana模型相当;
  • 参数规模:测试了3亿至300亿(30B)参数版本,证实模型规模扩大时仍能保持高效性能提升。

5. 应用前景

  • 当前阶段:模型处于研究阶段,尚未直接应用于iPhone或Mac设备;
  • 未来整合:极有可能被纳入苹果未来的“图乐园Image Playground”功能,为用户提供智能修图和图像生成能力,巩固苹果在端侧AI领域的竞争力。

参考资料

(注:文中含广告声明及对外跳转链接,结果仅供参考。) fmt 一站式数字化解决方案服务商 —— 专业提供软件开发、网站设计、APP 与小程序开发,搭载低费率支付通道,结合创意广告设计,助力企业全链路数字化升级。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部