苹果发布 LiTo 大模型:单图生成 3D 对象,AI 高度还原多视角光影

fmt 苹果AI研究团队发布了名为LiTo(表面光场标记化)的模型,核心突破在于仅通过单张平面图像即可重建完整3D对象,并在不同视角下保持光影效果的物理真实与一致性,打破了传统需要多角度图像输入的限制。

核心技术原理

  1. 潜在空间(Latent Space)的应用
    LiTo利用机器学习中的“潜在空间”压缩复杂信息,将随机采样的表面光场数据编码为紧凑向量集,无需死记视觉细节,而是通过数学规律同时掌握对象的物理形状及光线与表面交互的底层规律。

  2. 双向编码-解码机制

    • 编码器:压缩输入图像的几何结构和视角相关外观特征,转化为潜在空间中的精简代码;
    • 解码器:利用这些代码逆向还原3D对象,精准复现镜面高光、菲涅尔反射等高级光影效果。

训练与性能表现

  • 训练数据:使用数千个3D对象(在150个视角、3种光照条件下渲染)进行高强度训练,通过抽取样本训练解码器,使其能在不同光照和视角下还原完整对象。
  • 测试结果:模型具备单图预测三维潜在表示的能力,对比测试中显著超越现有TRELLIS模型,在多视角光影还原度上表现优异。

关键创新点

  • 统一3D潜在表示:将表面光场数据编码为紧凑向量集,同时掌握物理形状与光线交互规律;
  • 高效计算与物理真实:无需多角度输入,通过数学描述替代细节记忆,实现复杂光照条件下的光影效果还原。

参考资料

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部