遏制 AI 幻觉：苹果 DeepMMSearch-R1 论文揭秘“图像裁剪”搜索术

苹果于1月15日发布研究论文，介绍名为DeepMMSearch-R1的AI模型，旨在优化复杂视觉场景下的搜索逻辑，核心目标是通过“裁剪”技术解决AI在复杂视觉信息处理中常出现的“答非所问”“漏看”等“幻觉”问题。

传统模型在处理复合视觉问题（如“图中左上角鸟的最高时速”）时，因无法聚焦局部细节，常给出错误的平均数据，导致常识性事实检索不准确（即“偷懒”现象）。

DeepMMSearch-R1引入“视觉定位工具（Grounding Tool）”，通过主动裁剪图片、剔除干扰信息，先精准识别微小目标，再结合网络搜索验证，确保答案的事实准确性。

为避免过度裁剪浪费算力，模型采用“监督微调（SFT）+ 在线强化学习（RL）”组合训练：

测试数据显示，该模型在需精准图文对应的问题上，表现显著优于RAG（检索增强生成）工作流及基于提示词的搜索智能体，成功解决了AI在常识性事实检索中的“偷懒”问题。

总结：DeepMMSearch-R1通过“视觉定位+精准裁剪”技术，结合高效训练策略，有效解决AI复杂视觉场景下的幻觉问题，为多模态搜索提供了新范式。一站式数字化解决方案服务商 —— 专业提供软件开发、网站设计、APP 与小程序开发，搭载低费率支付通道，结合创意广告设计，助力企业全链路数字化升级。