如何在满足用户隐私保护、数据安全和政府法规的前提下,对跨组织的数据进行学习并建立模型是困扰从业者的一大难题。在现阶段,联邦学习技术被认为是这个问题的解决方法之一。
未来的世界数据称王
人类可能只是放大版的蚂蚁
——未来简史
科技的迅速发展,使得数据量猛增,人类进入大数据时代。为充分释放数据红利,必须利用合适的技术或算法,最大化发挥数据中的潜在价值,而说到当前最热门的算法必然要提到人工智能中常用的机器学习、深度学习。随着大数据技术的发展以及隐私保护意识的提高,人们开始担心自己的数据被收集后会被泄露或者是被不正当使用。如何在满足用户隐私保护、数据安全和政府法规的前提下,对跨组织的数据进行学习并建立模型是困扰从业者的一大难题。
在现阶段,联邦学习技术(FederatedLearning, FL)被认为是这个问题的解决方法之一。
联邦学习的概念
联邦学习又称协作学习、分布式学习,最早在2016年由谷歌提出。简单来说,可以将联邦学习看作具有隐私保护的机器学习。在联邦学习过程中,多个参与者在各方不共享数据的情况下对数据进行联合训练,建立共享的学习模型,共同获益。
联邦学习能够保证每个客户的隐私数据不出本地,可以降低传统中心化机器学习带来的隐私泄露风险和因数据泄露带来的相应成本,而建模效果与将整个数据集放在一处效果相同(或相差不大)。
当前国内外已有一些联邦学习开源框架,主要的有谷歌的Tensorflow、OpenMinded的Pysyft、微众银行的FATE、百度的PaddleFL等。
联邦学习的过程
联邦学习本质上是深度学习和分布式计算的结合,由多个参与方共同完成分布式训练,其中有一个中央服务器被称为参数服务器,具体过程简述如下:
(1)训练数据被分区并存储在每一方,每一方分别在其本地数据上训练一个深度学习模型(与在参数服务器上维护的模型相同),并向参数服务器上传加密后的中间梯度。
(2)参数服务器收到各方上传的梯度后,聚合这些参数,更新全局模型。
(3)每个参与方从服务器下载更新后的全局模型,继续用本地数据进行训练再上传更新。
上述训练过程会重复进行,直到训练误差小于预先设定的阈值。
联邦学习的分类
图1联邦学习分类
根据数据孤岛的类型及数据划分方式,可以把联邦学习分为横向联邦学习,纵向联邦学习和联邦迁移学习,如图1所示。
横向联邦学习
横向联邦学习适用于数据集间用户特征重叠部分较大、用户重叠部分较小的场景,例如两个不同地区的银行,他们用户不同但业务特征相似。
横向联邦学习的实现方式相对简单,各参与方在本地计算模型,再将结果加密上传后由服务器聚合更新即可,如图2所示。
图2横向联邦学习
纵向联邦学习
纵向联邦学习适用于数据集间用户重叠部分较大、用户特征重叠部分较小的场景,例如同一个地方的银行和电商机构,他们的用户相似但业务特征不同。
纵向联邦学习过程相对复杂,如图3所示,首先需要找出参与双方共有的训练样本ID(加密样本对齐),才能进行模型加密训练。
图3纵向联邦学习
训练过程中,一个表达式里既有己方的变量又有对方的变量,因此中间参数需交互,且不能直接获得对方的数据,此过程中涉及安全多方计算等技术。
目前,逻辑回归模型、树形结构模型、神经网络模型等众多机器学习模型已逐渐被证实可建立在纵向联邦体系上。
联邦迁移学习
联邦迁移学习适用于数据集间用户与用户特征重叠部分都较小时的情景。此时不对数据进行切分,而是在联邦学习中引入迁移学习来克服联邦学习数据和标签不足的问题,提升模型效果。
问题与挑战
新技术的出现往往是一把“双刃剑”,联邦学习也不例外,作为一项“年轻”的技术,联邦计算仍面临着一些问题与挑战。
通信与计算开销
联邦学习需要将迭代的训练参数上传至服务器,参与用户数目及训练迭代次数的增加都会导致链路传输开销的增加。此外,加密和解密算法也会带来计算量的剧增,这些都需进一步优化。
信任问题
由于联邦学习的参与方来自不同的组织或机构,彼此间缺少信任,因此,如何在互相缺乏信任的场景下建立安全可靠的协作机制,是实际应用中亟待解决的问题。
安全问题
一方面,各参与方所提供的参数缺乏相应的验证机制,恶意的参与者可能会提供虚假的模型参数,这会直接影响整体模型的质量。
另一方面,近期的一些研究表明,攻击者有可能根据每一轮的更新参数推测出用户的私有数据,这会使得联邦学习不再具有隐私保护的能力。
除了上述问题,联邦学习中参与用户的异构性、通信链路的可靠性、如何将深度学习等复杂算法改造成联邦学习模式等问题都值得进一步深入研究。
联邦学习+区块链?
在传统的联邦学习中,全局模型更新的存储和计算完全依赖于中央服务器的可靠性,任何恶意行为都会导致全局模型更新出现问题,从而使整个学习过程变得错误。
区块链是一种分布式、去中心化、可追溯的分类账技术,将区块链技术引入联邦学习,在不安全的环境中可以用来替换容易受到攻击的中央服务器。与此同时,还可利用区块链的激励机制,通过提供与训练样本大小成比例的奖励,激励更多设备与更多训练样本的联合。
因此,将区块链技术与联邦学习进行结合或许将是一种能有效解决安全问题又能激励更多人参与的方案。
小结
总的来说,联邦学习技术目前仍不算成熟,但相信随着人工智能等技术的不断发展,联邦学习在跨部门合作、数据隐私保护等方面将会发挥越来越重要的作用,有着广阔的应用前景。
本文来源:数秦科技原文标题:数秦研究院 | 打破数据孤岛:联邦学习