
苹果发布AI模型DeepMMSearch-R1:用“图像裁剪”技术解决AI幻觉问题
背景与目标
苹果于1月15日发布研究论文,介绍名为DeepMMSearch-R1的AI模型,旨在优化复杂视觉场景下的搜索逻辑,核心目标是通过“裁剪”技术解决AI在复杂视觉信息处理中常出现的“答非所问”“漏看”等“幻觉”问题。
现有AI模型的痛点
传统模型在处理复合视觉问题(如“图中左上角鸟的最高时速”)时,因无法聚焦局部细节,常给出错误的平均数据,导致常识性事实检索不准确(即“偷懒”现象)。
核心技术:视觉定位工具+图像裁剪
DeepMMSearch-R1引入“视觉定位工具(Grounding Tool)”,通过主动裁剪图片、剔除干扰信息,先精准识别微小目标,再结合网络搜索验证,确保答案的事实准确性。
训练策略:节省算力的高效裁剪
为避免过度裁剪浪费算力,模型采用“监督微调(SFT)+ 在线强化学习(RL)”组合训练:
- SFT:教会模型“不乱剪”,规范裁剪决策;
- RL:提升工具调用效率,仅在必要时启用裁剪功能。
测试效果:显著优于现有方法
测试数据显示,该模型在需精准图文对应的问题上,表现显著优于RAG(检索增强生成)工作流及基于提示词的搜索智能体,成功解决了AI在常识性事实检索中的“偷懒”问题。
参考与声明
- 论文地址:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
- leyunetwork声明:文中跳转链接仅传递信息,结果仅供参考。
总结:DeepMMSearch-R1通过“视觉定位+精准裁剪”技术,结合高效训练策略,有效解决AI复杂视觉场景下的幻觉问题,为多模态搜索提供了新范式。
一站式数字化解决方案服务商 —— 专业提供软件开发、网站设计、APP 与小程序开发,搭载低费率支付通道,结合创意广告设计,助力企业全链路数字化升级。
- 使用本网站请联系客服
- 点击关注微信公众号:乐鱼网络
- 点击-在线客服