Secure Federated Transfer Learning(论文笔记)

论文链接:https://arxiv.org/pdf/1812.03337.pdf

 

一、概述

众所周知,机器学习依靠大量用于训练的数据。然而,在现实中存在的数据存在以下特点:

  • 数据分散(各行各业都有自己的一些客户数据,但是这些数据量又太少,训练出来的模型表现很差)
  • 数据质量差(拥有的这些数据中存在着少标签甚至无标签的情况,而对这些数据作标签处理需要很昂贵的代价,尤其是在某些专业领域对数据进行分类)
  • 企业不愿暴漏数据(数据对一个企业来说是十分重要的,企业并不愿意将它的隐私暴漏给其他企业)
  • 法律对数据隐私的约束(企业间不能够直接地进行数据共享)

而在这篇论文中引入了一种新的技术和框架,称为联邦迁移学习(FTL),它允许在不损害用户隐私的情况下进行知识共享,并且允许在网络中传送互补知识,并且可以利用源域大量有标注的数据实现目标域模型的训练

框架特点:只需在现有模型上进行少量修改,十分灵活高效,能够很好地应用于各种安全地多方机器学习任务

 

二、简介

  • 背景

Recent Artificial Intelligence (AI) achievements have been depending on the availability of massive amount of labeled data. AlphaGo (Silver et al. 2016) uses 30 millions of moves from 160,000 actual games.The ImageNet dataset (Deng et al. 2009) has over 14 million images. 

人工智能在大量有标签地数据下发展地迅速,但是现实中

  • 数据质量差(垃圾数据, 数据少标签,数据无标签)     
  • 数据分散
  • 数据隐私保护的需要

使得对数据进行联合变得十分困难

而绝大多数企业只拥有很有限的数据量(few samples and features),甚至有些企业只是持有未标注的数据,数据的质量差,可利用性不强,对于数据依赖性极强的AI模型的训练极为不利。

Google first introduced a federated learning (FL) system (McMahan et al. 2016) in which a global machine learning model is updated by a federation of distributed participants while keeping their data locally

解决方案:谷歌首次引入了联邦学习系统,在数据保留在本地的情况下,多个参与者共同训练,对本地训练结果进行加密并上传模型更新参数到服务器,由这些更新的结果对全局模型进行训练,然后服务器返回训练结果。这样既为数据隐私提供了保证,又能够有多方数据共同参与训练模型,使得模型表现更好。

 

缺点:这种联邦学习框架局限于参与者提供的数据必须是具有相同特征或者相同样本的情况。

理想很丰满,现实很骨感

In reality. however, the set of common entities could be small, making a federation less attractive and leaving the majority non-overlapping data undermined.

于是论文提出了可行的解决方案: Federataion Transfer Learning(FTL)

Main contributions:

We introduce federated transfer learning in a privacy-preserving setting to provide solutions for federation problems beyond the scope of existing federated learning approaches;

  • 在保护隐私的情况下引入了联邦迁移学习来解决当前联邦学习的局限

We provide an end-to-end solution to the proposed FTL problem and show that convergence and accuracy of the proposed approach is comparable to the non-privacy-preserving approach;

  • 对提出的FTL问题提供了一个端到端的解决方案,并且使用该方法训练的模型精度和收敛性能够媲美无隐私保护下的训练方法

We provide a novel approach for adopting additively homomorphic encryption (HE) to multi-party computation (MPC) with neural networks such that only minimal modifications to the neural network is required and the accuracy is almost lossless, whereas most of the existing secure deep learning frameworks suffer from loss of accuracy when adopting privacy-preservingtechniques.

  • 当前存在的安全深度学习框架由于引入了隐私保护技术,在精度损失方面表现很差,而在该框架中采用同态加密技术和神经网络技术,精度损失表现更好

 

三、相关工作

Federated Learning and Secure Deep Learning

当前现有的一些加密隐私方案

  • A secure aggregation scheme(Goolge):各联邦用户向服务器上传本地训练更新后的进行加密的参数,服务器进行安全聚                                                                           合,更新全局模型,并返回更新结果到各联邦用户
  • CryptoNet:数据在经过同态加密技术(Homomorphic Encryption)再进行神经网络(Neural Network)计算
  • CryptoDL:采用低阶多项式逼近神经网络中的激活函数,以减少预测的精度损失
  • DeepSecure: uses Yao's Garbled Circuit Protocol for data encryption instead of  HE.
  • SML(安全多方计算):uses secret-sharing and Yao's Grabled Circuit for encryption and supports collaborative training                            &nb
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值