【博士每天一篇文献-综述】Machine Unlearning Solutions and Challenges

简介: 本文综述了机器遗忘的解决方案和挑战,全面分类并分析了精确遗忘和近似遗忘方法,探讨了它们在隐私保护、安全性增强、模型适应性提升中的应用,并提出了评价指标和未来研究方向。

1 介绍

年份:2024
作者:徐杰,吴子涵,香港城市大学
期刊: IEEE Transactions on Emerging Topics in Computational Intelligence(1区)
截屏2024-06-30 上午11.41.01.png
引用量:19
本文对机器遗忘解决方案的全面分类和分析,将现有解决方案分为精确遗忘学习(exact unlearning)方法和近似遗忘学习(approximate unlearning)方法。精确遗忘分为基于SISA框架的方法和非SISA方法,近似遗忘分为基于移除数据的影响函数、基于重新优化、基于梯度更新、特定于图数据的近似遗忘,以及基于新颖技术的近似遗忘这五个类别。精确遗忘方法通过算法级重训练彻底移除数据影响,而近似遗忘学习方法通过有效更新模型参数来最小化数据影响。论文全面回顾了这些解决方案,并识别和讨论了它们的优缺点。
截屏2024-06-30 上午10.51.18.png
截屏2024-06-30 上午10.51.54.png

Xu J, Wu Z, Wang C, et al. Machine unlearning: Solutions and challenges[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2024.

2 创新点

  1. 全面分类与分析:论文提供了对现有机器遗忘解决方案的全面分类,包括精确遗忘和近似遗忘方法,为研究人员提供了结构化的理解。
  2. 批判性分析:深入分析了现有解决方案的优势和局限性。
  3. 理论基础:基于理论基础对遗忘方法进行分类,如影响函数、重优化或梯度更新。
  4. 隐私保护与安全:强调了机器遗忘在加强模型安全性和对抗性攻击中的重要作用,特别是在数据投毒攻击中去除有害数据点,提高模型的鲁棒性。
  5. 自适应性:讨论了机器遗忘在动态环境中提高模型适应性的能力,通过选择性地移除过时或不具代表性的数据,使模型能够适应环境的变化。
  6. 实施策略:论文还探讨了机器遗忘在不同领域的实施,包括计算机视觉、自然语言处理和图数据处理,并讨论了不同数据集和模型类型的应用。
  7. 评价指标:提出了评价机器遗忘解决方案的评价指标,如数据擦除完整性、遗忘时间效率、资源消耗和隐私保护。

3 相关研究

3.1 相关概念

(1)机器遗忘 (Machine Unlearning)

  • 问题定义: 机器遗忘指从已训练的机器学习模型中移除特定训练数据点的影响的过程。目标是在保留数据集其余部分的性能的同时,去除选定数据的影响。
  • 应用场景: 包括隐私保护、安全性增强和适应性提升。例如,遵守GDPR和CCPA等法规,允许用户请求从训练模型中移除其个人数据。
  • 挑战: 包括数据依赖性、模型复杂性、计算成本、隐私泄露风险和动态环境适应性等。
  • 评估指标: 包括数据擦除完整性、遗忘时间效率、资源消耗和隐私保护等。

(2)SISA框架
Sharding, Isolation, Slicing, and Aggregation (SISA)框架是一种通用的精确遗忘方法。通过分割训练数据、独立训练子模型、增量式更新模型和聚合子模型来实现数据的精确遗忘。
截屏2024-06-30 上午11.14.12.png
(3)精确遗忘和近似遗忘的定义
精确遗忘(Exact Unlearning)

  • 定义:精确遗忘的目标是通过算法级的重训练或其他方法彻底移除目标数据点对模型的影响。理想情况下,精确遗忘后的模型应该表现得就像从未在这些数据上训练过一样。
  • 方法:通常涉及对模型进行重新训练或使用特殊的数据隔离技术,例如SISA(Sharding, Isolation, Slicing, and Aggregation)框架,确保数据点被完全遗忘。
  • 特点:提供了较强的保证,即模型在遗忘数据后,其参数和预测与完全重新训练的模型无异。但这种方法通常计算成本高,需要较多的存储资源。

近似遗忘(Approximate Unlearning)

  • 定义:近似遗忘则关注于在可接受的误差范围内减少目标数据点对模型的影响,而不是完全移除。这种方法通常在效率和准确性之间做出权衡。
  • 方法:包括基于影响函数的调整、重新优化、梯度更新等技术,这些方法不需要完全重新训练模型,而是通过调整现有模型参数来减少特定数据的影响。
  • 特点:相较于精确遗忘,近似遗忘在计算效率、存储成本和模型灵活性方面具有优势。但可能会牺牲一定程度的遗忘完整性,即模型可能仍然保留对被遗忘数据的部分记忆。

3.2 精确遗忘

(1)基于SISA结构的精确遗忘

  • 随机森林的精确遗忘:讨论了如何将SISA框架应用于随机森林模型,特别是DaRE森林和HedgeCut方法,它们通过不同的策略来提高遗忘效率和降低延迟。
  • 基于图的模型的精确遗忘:由于图数据的相互连接特性,提出了GraphEraser和RecEraser方法,这些方法扩展了SISA框架以适应图数据结构。
  • k-Means的精确遗忘:DC-k-means方法采用了类似SISA的框架,但使用了树状分层聚合方法。
  • 联邦学习的精确遗忘:KNOT方法采用了SISA框架,实现了客户端级别的异步联邦遗忘学习。

截屏2024-06-30 上午11.15.37.png
(2)非SISA的精确遗忘

  • 统计查询学习:Cao等人提出了一种中介层“求和”,通过更新求和来实现数据点的移除。
  • 联邦学习的快速重训练:Liu等人提出了一种快速重训练方法,利用一阶泰勒近似技术和低代价的Hessian矩阵近似方法来减少计算和通信成本。

(3)精确遗忘方法的优缺点

  1. 附加存储成本:精确遗忘方法通常需要大量的额外存储空间来缓存模型参数、统计数据或中间结果。例如,SISA框架需要存储每个数据分片的模型参数,而HedgeCut需要存储子树变体。这限制了在大型模型或频繁遗忘请求中的可扩展性。
  2. 强假设:一些方法对学习算法或数据特性有强烈的假设。例如,SISA可能在处理高度依赖的数据时表现不佳,而统计查询学习要求算法能够以求和形式表达。特定于某些模型的方法,如DaRE、HedgeCut、GraphEraser和RecEraser,适用性有限。
  3. 模型效用:尽管大多数方法声称在遗忘后能够保持准确性,但缺乏在不同设置下的彻底分析。需要对不同模型、数据集和移除量进行严格的评估,以提供具体的效用保证。
  4. 计算成本:精确遗忘方法在初始训练期间增加了计算成本,因为需要训练多个子模型并进行聚合。当计算资源有限时,这可能不可行。
  5. 处理动态数据:现有方法主要集中在固定训练集上移除数据。处理动态变化的数据,以及持续的插入和移除请求,仍然是一个开放问题。
  6. 选择和实用性:尽管现有的精确遗忘方法能够高效准确地移除数据,但它们在存储、假设、效用维持和可扩展性方面存在局限性。选择最合适的方法取决于应用的具体要求,包括数据类型、模型类型、可用资源,以及效率和准确性之间的期望平衡。

3.3 近似遗忘

(1)基于移除数据的影响函数的近似遗忘
原理:这种方法通过计算被移除数据点对模型参数的影响,然后更新模型参数以减少这些数据点的影响。影响函数衡量了单个训练样本对模型预测的影响。
代表性算法:Guo等人提出的算法利用影响函数进行数据移除,并实现了L2正则化线性模型的认证移除。Sekhari等人的工作通过使用训练数据的统计信息来减少存储和计算需求。
截屏2024-06-30 上午11.33.22.png

(2)基于移除数据后的重新优化的近似遗忘
原理:此方法首先在完整数据集上训练模型,然后定义一个新的损失函数以在保留的数据上维持准确性,并通过重新优化过程来最小化这个新的损失函数,从而实现对特定数据点的遗忘。
代表性算法:Golatkar等人提出的选择性遗忘算法通过修改网络权重,使得被遗忘数据的分布与从未训练过这些数据的网络权重分布不可区分。
截屏2024-06-30 上午11.33.41.png

(3)基于梯度更新的近似遗忘
原理:在这种方法中,通过对新数据执行少量梯度更新步骤来适应模型参数的小变化,而无需完全重新训练模型。
代表性算法:DeltaGrad算法利用缓存的梯度和参数信息来快速适应小的训练集变化。FedRecover算法从被污染的模型中恢复准确的全局模型,同时最小化客户端的计算和通信成本。
截屏2024-06-30 上午11.33.58.png

(4)特定于图数据的近似遗忘
原理:图数据由于其固有的依赖性,需要专门的方法来处理。这些方法考虑了图结构数据中节点和边的相互依赖性。
代表性算法:Wu等人提出的Graph Influence Function (GIF) 考虑了节点/边/特征对其邻居的结构影响。Cheng等人提出的GNNDELETE方法集成了一种新颖的删除操作符来处理图中边的删除影响。
截屏2024-06-30 上午11.34.15.png

(5)基于新颖技术的近似遗忘
原理:这种方法利用独特的模型架构或数据特性来开发新的近似遗忘技术。
代表性算法:Wang等人提出的模型剪枝方法在联邦学习中选择性地移除CNN分类模型中的类别。Izzo等人提出的Projective Residual Update (PRU) 用于从线性回归模型中移除数据。ERM-KTP是一种可解释的知识级机器遗忘方法,通过在训练期间使用减少纠缠的掩码(ERM)来分离和隔离特定类别的知识。

3.4 潜在研究方向

(1)多样化数据结构的遗忘学习
扩展遗忘学习算法以适应文本、语音、多媒体等复杂数据结构,处理不同数据类型的独特特性,如语言的时序性、图像的空间关系等。
(2)非凸模型的遗忘学习
将遗忘学习算法应用于非凸模型,如卷积神经网络(CNN)、循环神经网络(RNN)和变换器(Transformers),解决非凸优化问题,提供理论上的保证。
(3)用户指定的遗忘粒度
开发交互式和可解释的遗忘学习算法,允许用户以更细粒度指定要遗忘的内容,例如图像中的特定区域或文本中的特定词语。
(4)遗忘学习的隐私保证
探索超越差分隐私的更强隐私保护概念,以严格限制信息泄露,同时不过分牺牲模型效用,例如利用信息论方法直接限制模型保留的被遗忘数据的信息量。
(5)定量评估指标
开发定量评估指标来衡量被遗忘数据的影响移除程度和剩余数据的影响保留程度,利用信息论和可解释性研究的工具来系统分析机器学习模型的记忆力过程。

6 思考

(1)本文对精确遗忘和近似遗忘的方法进行了系统的分类,并提出了几个潜在的研究方向,这是其中一个能发一区的原因。
(2)论文虽说是发表是2024,但是所有相关研究都是截止2023年的。

目录
相关文章
|
机器学习/深度学习 人工智能 数据可视化
机器学习:详解贝叶斯网络+例题分析
机器学习:详解贝叶斯网络+例题分析
3351 0
机器学习:详解贝叶斯网络+例题分析
|
机器学习/深度学习 算法 安全
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
本文提供了机器遗忘的全面定义、问题方程、精确与近似遗忘的概念,并分类总结了机器遗忘方法,讨论了其在联邦学习和终身学习中的应用,提出了未来研究方向,为机器遗忘研究领域奠定了理论基础并指出了实际应用的潜力与挑战。
921 5
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
|
6月前
|
存储 人工智能 自然语言处理
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
本文深入探讨了混合专家(MoE)架构在大型语言模型中的应用与技术原理。MoE通过稀疏激活机制,在保持模型高效性的同时实现参数规模的大幅扩展,已成为LLM发展的关键趋势。文章分析了MoE的核心组件,包括专家网络与路由机制,并对比了密集与稀疏MoE的特点。同时,详细介绍了Mixtral、Grok、DBRX和DeepSeek等代表性模型的技术特点及创新。MoE不仅解决了传统模型扩展成本高昂的问题,还展现出专业化与适应性强的优势,未来有望推动AI工具更广泛的应用。
2919 4
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
|
9月前
|
机器学习/深度学习 存储 算法
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
近端策略优化(PPO)是深度强化学习中高效的策略优化方法,广泛应用于大语言模型的RLHF训练。PPO通过引入策略更新约束机制,平衡了更新幅度,提升了训练稳定性。其核心思想是在优势演员-评论家方法的基础上,采用裁剪和非裁剪项组成的替代目标函数,限制策略比率在[1-ϵ, 1+ϵ]区间内,防止过大的策略更新。本文详细探讨了PPO的基本原理、损失函数设计及PyTorch实现流程,提供了完整的代码示例。
3697 10
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
|
8月前
|
人工智能 小程序 算法
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
1242 14
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
这篇论文探讨了基于规则的强化学习(RL)如何提升大型语言模型(LLM)的高级推理能力。通过在程序生成的逻辑谜题上训练并强制执行结构化思考,即使是较小的模型也能开发出可转移的问题解决策略。研究引入了多层次奖励系统,包括格式、答案、推理一致性和反思奖励,以引导模型形成严谨的推理过程。实验结果表明,这种方法不仅提高了模型在逻辑任务上的性能,还在数学问题解决、代码调试等领域展现出显著的泛化能力。此外,该方法在较小模型上实现了与大模型相当甚至更优的推理表现,为资源受限环境下的高效推理提供了新途径。
753 0
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
|
机器学习/深度学习 存储 缓存
2024机器遗忘(Machine Unlearning)技术分类-思维导图
本文通过思维导图的形式,详细介绍了机器遗忘技术的分类、优缺点、面临的威胁和攻击以及防御机制,并探讨了评估机器遗忘系统有效性的方法,包括精确遗忘和近似遗忘技术,以及在数据隐私保护和法律遵从方面的应用。
908 5
|
机器学习/深度学习 存储 监控
揭秘微调‘失忆’之谜:如何运用低秩适应与多任务学习等策略,快速破解灾难性遗忘难题?
【10月更文挑战第13天】本文介绍了几种有效解决微调灾难性遗忘问题的方法,包括低秩适应(LoRA)、持续学习和增量学习策略、记忆增强方法、多任务学习框架、正则化技术和适时停止训练。通过示例代码和具体策略,帮助读者优化微调过程,提高模型的稳定性和效能。
513 5
|
机器学习/深度学习 算法 安全
【博士每天一篇文献-综述】Machine Unlearning Taxonomy, Metrics, Applications, Challenges, and Prospects
本文综述了机器遗忘的分类、评价指标、应用场景、挑战和未来研究方向,提出了精确遗忘和近似遗忘的概念,并探讨了机器遗忘在模型优化和防御攻击中的应用,同时讨论了分布式学习环境下的遗忘挑战和解决方案。
435 6