遏制 AI 幻觉:苹果 DeepMMSearch-R1 论文揭秘“图像裁剪”搜索术

fmt

苹果发布AI模型DeepMMSearch-R1:用“图像裁剪”技术解决AI幻觉问题

背景与目标

苹果于1月15日发布研究论文,介绍名为DeepMMSearch-R1的AI模型,旨在优化复杂视觉场景下的搜索逻辑,核心目标是通过“裁剪”技术解决AI在复杂视觉信息处理中常出现的“答非所问”“漏看”等“幻觉”问题。

现有AI模型的痛点

传统模型在处理复合视觉问题(如“图中左上角鸟的最高时速”)时,因无法聚焦局部细节,常给出错误的平均数据,导致常识性事实检索不准确(即“偷懒”现象)。

核心技术:视觉定位工具+图像裁剪

DeepMMSearch-R1引入“视觉定位工具(Grounding Tool)”,通过主动裁剪图片、剔除干扰信息,先精准识别微小目标,再结合网络搜索验证,确保答案的事实准确性。

训练策略:节省算力的高效裁剪

为避免过度裁剪浪费算力,模型采用“监督微调(SFT)+ 在线强化学习(RL)”组合训练:

  • SFT:教会模型“不乱剪”,规范裁剪决策;
  • RL:提升工具调用效率,仅在必要时启用裁剪功能。

测试效果:显著优于现有方法

测试数据显示,该模型在需精准图文对应的问题上,表现显著优于RAG(检索增强生成)工作流及基于提示词的搜索智能体,成功解决了AI在常识性事实检索中的“偷懒”问题。

参考与声明

总结:DeepMMSearch-R1通过“视觉定位+精准裁剪”技术,结合高效训练策略,有效解决AI复杂视觉场景下的幻觉问题,为多模态搜索提供了新范式。 fmt 一站式数字化解决方案服务商 —— 专业提供软件开发、网站设计、APP 与小程序开发,搭载低费率支付通道,结合创意广告设计,助力企业全链路数字化升级。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部