【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning

简介: 本文提供了机器遗忘的全面定义、问题方程、精确与近似遗忘的概念,并分类总结了机器遗忘方法,讨论了其在联邦学习和终身学习中的应用,提出了未来研究方向,为机器遗忘研究领域奠定了理论基础并指出了实际应用的潜力与挑战。

1 介绍

年份:2024
作者:
期刊: High-Confidence Computing(2区)
引用量:0
Li C, Jiang H, Chen J, et al. An overview of machine unlearning[J]. High-Confidence Computing, 2024: 100254
本文详细提供了机器遗忘的全面定义,包括问题方程、精确遗忘和近似遗忘的概念,为机器遗忘研究领域建立了一个清晰的理论基础。提出机器遗忘的目标分类,包括特征删除和类别删除。将机器遗忘方法分为模型不可知、模型固有和数据驱动三类方法。提出机器遗忘验证指标,包括准确性、完整性、遗忘时间和重训练时间、模型反演攻击、成员推断攻击和后门攻击。总结机器遗忘在联邦学习和终身学习中的应用。

2 创新点

  1. 全面的定义和框架:论文提供了机器遗忘的全面定义,包括问题方程、精确遗忘和近似遗忘的概念,为机器遗忘研究领域建立了一个清晰的理论基础。
  2. 遗忘需求和验证的系统化讨论:文章不仅讨论了机器遗忘的必要性,还系统化地讨论了遗忘的需求、设计要求以及验证方法,这有助于标准化机器遗忘的过程。
  3. 算法分类与总结:论文对现有的机器遗忘算法进行了分类和总结,包括模型不可知方法、模型固有方法和数据驱动方法,为研究者提供了一个全面的技术概览。
  4. 应用领域的深入分析:论文深入分析了机器遗忘在联邦学习和终身学习等应用领域的应用情况,指出了机器遗忘在这些领域的潜力和挑战。
  5. 未来研究方向的提出:文章提出了机器遗忘领域的未来研究方向,包括设计要求的协调、统一基准测试、对抗性机器遗忘、可解释的机器遗忘以及在演化数据流中的无意识机器学习。

3 相关研究

3.1 机器遗忘的框架

3.1.1 工作流程

在这里插入图片描述

  • 训练特征移除/类别移除:模型首先在完整数据集上训练,然后根据用户遗忘请求进行遗忘学习。
  • 重训练:遗忘后的模型与在保留数据集上重新训练的模型进行比较,目标是使两者的特征尽可能相似。
  • 遗忘模型与重训练模型的比较:通过比较遗忘模型和重训练模型,确保遗忘过程的有效性。

3.1.2 请求

(1)特征删除
常见的机器遗忘请求是删除训练数据集中的特定样本。隐私泄露可能由单个数据项或具有相似特征或标签的数据集引起。提出了基于影响函数的特征移除技术,通过估计和公式化训练数据对模型参数的更新。
(2)类别删除
数据遗忘可能涉及训练模型中的一个或多个类别。类别删除比删除某些样本更具挑战性,因为数据按类别划分本身无助于训练模型。提出了基于数据增强的类别移除方法,通过引入噪声最大化目标类别的分类错误。

3.1.3 设计要求

  • 可验证性:机器遗忘框架应提供认证机制,确保模型在遗忘后有效保护用户隐私。
  • 一致性:遗忘后的模型和重新训练的模型应对任何可能的数据样本做出相同的预测。
  • 准确性:遗忘后的模型应能够正确预测测试样本,或至少其准确性应与重新训练的模型相当。

3.2 机器遗忘验证指标

  • 准确性:在遗忘集、保留集和测试集上测量模型的准确性。
  • 完整性:确保被移除样本对遗忘模型的影响被完全消除,并测量遗忘模型与重训练模型的兼容性。
  • 遗忘时间和重训练时间:量化使用遗忘而非重训练进行模型更新所节省的时间。
  • 模型反演攻击:使用模型反演攻击来确定模型是否保留了关于被遗忘样本的信息。
  • 成员推断攻击:使用成员推断攻击来确定模型是否保留了关于被遗忘样本的信息。
  • 后门攻击:在数据中注入后门以欺骗机器学习模型。后门攻击被用来验证机器遗忘的有效性,特别是所有用户用混合了干净数据和有毒数据训练模型,一些用户希望删除他们的数据。

3.3 遗忘算法分类

3.3.1 模型不可知方法(Model-agnostic methods)

  • 差分隐私:用于限制数据样本对机器学习模型的影响。
  • 统计查询学习:通过查询训练数据的统计信息而非数据本身来训练模型。
  • MCMC 遗忘(参数抽样):使用马尔可夫链蒙特卡洛方法对模型参数进行抽样。

文献

  • Bourtoule, L., Chandrasekaran, V., Choquette-Choo, C.A., Jia, H., Travers, A., Zhang, B., Lie, D., Papernot, N., 2021.
  • Nguyen, Q.P., Low, B.K.H., Jaillet, P., 2020.

3.3.2模型固有方法(Model-intrinsic methods )

  • Softmax 分类器(逻辑基分类器)的机器遗忘:调整模型参数以确保被遗忘的数据不再影响模型的决策过程。
  • 线性模型的机器遗忘:从训练的线性模型中移除特定数据点的影响。
  • 基于树的模型的机器遗忘:如极端随机树,通过测量分割决策的鲁棒性来进行遗忘。
  • 贝叶斯模型的机器遗忘:需要特殊处理,因为训练已经涉及优化模型参数的后验分布。
  • 基于 DNN 模型的机器遗忘:自动从数据中学习特征的模型,需要特定方法来遗忘数据。

文献

  • Baumhauer, T., Schöttle, P., Zeppelzauer, M., 2022.
  • Izzo, Z., Anne Smart, M., Chaudhuri, K., Zou, J.Y., 2021.
  • Schelter, S., Grafberger, S., Dunning, T., 2021.
  • Golatkar, A., Achille, A., Ravichandran, A., Polito, M., Soatto, S., 2021.

3.3.3 数据驱动方法(Data-driven methods )

  • 数据分区(高效重训练):使用数据分区机制加速重训练过程。
  • 数据增强:通过添加更多数据来支持模型训练,这种方法也可用于机器遗忘。
  • 数据影响:研究训练数据变化如何影响模型参数。

文献

  • Bourtoule, L., Chandrasekaran, V., Choquette-Choo, C.A., Jia, H., Travers, A., Zhang, B., Lie, D., Papernot, N., 2021.
  • Huang, H., Ma, X., Erfani, S.M., Bailey, J., Wang, Y., 2021.
  • Wu, G., Hashemi, M., Srinivasa, C., 2022.

3.4 机器遗忘应用

(1)联邦学习中的机器遗忘

  • 数据隐私和商业机密:由于隐私和法规限制,组织和机构无法整合原始数据共同训练大型模型。
  • 联邦学习:一种新的机器学习范式,允许参与者在不共享数据的情况下共同建模。
  • 机器遗忘在联邦学习中的挑战:全球权重是通过聚合而非原始梯度计算得到的,且客户端可能拥有重叠数据。

文献

  • Liu, G., Ma, X., Yang, Y., Wang, C., Liu, J., 2021.
  • Wu, C., Zhu, S., Mitra, P., 2022.
  • Liu, Y., Xu, L., Yuan, X., Wang, C., Li, B., 2022b.

(2)终身学习中的机器遗忘

  • 终身学习:也称为持续学习或增量学习,探索模型在多个任务上的表现。
  • 机器遗忘在终身学习中的应用
    • 防止灾难性遗忘:通过遗忘有害样本并更新模型以保持性能。
    • 处理爆炸性损失:通过遗忘方法调节极端情况以减轻问题。
    • 增量模型中的动态遗忘:如决策树和朴素贝叶斯,允许模型动态遗忘数据样本。

文献

  • Du, M., Chen, Z., Liu, C., Oak, R., Song, D., 2019. Lifelong anomaly detection through unlearning, in: Proceedings of the 2019 ACM SIGSAC conference on computer and communications security, pp. 1283–1297.
  • Liu, B., Liu, Q., Stone, P., 2022a. Continual learning and private unlearning, in: Conference on Lifelong Learning Agents, PMLR. pp. 243–254

4 思考

在终身学习上的应用很有启发性。

目录
相关文章
|
存储 机器学习/深度学习 自然语言处理
大语言模型隐私防泄漏:差分隐私、参数高效化
大语言模型隐私防泄漏:差分隐私、参数高效化
1059 4
|
机器学习/深度学习 存储 缓存
【博士每天一篇文献-综述】Machine Unlearning Solutions and Challenges
本文综述了机器遗忘的解决方案和挑战,全面分类并分析了精确遗忘和近似遗忘方法,探讨了它们在隐私保护、安全性增强、模型适应性提升中的应用,并提出了评价指标和未来研究方向。
795 2
|
机器学习/深度学习 存储 缓存
2024机器遗忘(Machine Unlearning)技术分类-思维导图
本文通过思维导图的形式,详细介绍了机器遗忘技术的分类、优缺点、面临的威胁和攻击以及防御机制,并探讨了评估机器遗忘系统有效性的方法,包括精确遗忘和近似遗忘技术,以及在数据隐私保护和法律遵从方面的应用。
925 5
|
机器学习/深度学习 存储 算法
【博士每天一篇文献-综述】2024最新联邦遗忘综述:Federated unlearning A survey on methods, design guidelines
本文提供了联邦遗忘(Federated Unlearning, FU)领域的全面综述,包括背景概念、动机、挑战、设计指南、评估指标体系,并探讨了FU在隐私保护和安全性方面的应用,以及面临的技术挑战和未来研究方向。
722 4
|
存储 SQL 安全
Java 安全性编程:基本概念与实战指南
【4月更文挑战第27天】在当今的软件开发领域,安全性编程是一个至关重要的方面。Java,作为广泛使用的编程语言之一,提供了多种机制来保护应用免受常见的安全威胁。本博客将探讨 Java 安全性编程的基本概念,并通过实际示例来展示如何实现这些安全措施。
374 3
|
11月前
|
网络协议 Ubuntu Linux
解决ssh: connect to host IP port 22: Connection timed out报错(scp传文件指定端口)
解决 `ssh: connect to host IP port 22: Connection timed out` 报错涉及检查 SSH 服务状态、防火墙配置、网络连通性和主机名解析等多个方面。通过逐步排查上述问题,并在 `scp` 命令中正确指定端口,可以有效解决连接超时的问题,确保文件传输的顺利进行。希望本文提供的解决方案能帮助您快速定位并解决该错误。
2745 3
|
机器学习/深度学习 数据采集 运维
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:A Survey on Machine Unlearning Techniques and New Emerged Privacy Risks
本文综述了机器遗忘技术及其面临的新兴隐私风险,提出了面向数据和模型的分类法,分析了信息窃取和模型破坏攻击手段,探讨了相应的防御策略,并讨论了机器遗忘技术在大型语言模型、联邦学习和异常检测等领域的应用。
345 5
|
机器学习/深度学习 并行计算 PyTorch
从零开始下载torch+cu(无痛版)
这篇文章提供了一个详细的无痛版教程,指导如何从零开始下载并配置支持CUDA的PyTorch GPU版本,包括查看Cuda版本、在官网检索下载包名、下载指定的torch、torchvision、torchaudio库,并在深度学习环境中安装和测试是否成功。
从零开始下载torch+cu(无痛版)