打算进行联邦迁移学习,可以使用哪款产品呢

今天我们来讲下最近比较博眼球嘚联邦学习应该很多人听过但是始终都没懂啥是联邦学习?百度一下发现大篇文章都说可以用来解决数据孤岛那它又是如何来解决数據孤岛问题的?对于联邦学习大部分文章还都处于其学术分享会的报道阶段,并未详细介绍联邦学习的实现方法难以理解其真容,本篇文章将从技术角度介绍联邦学习

1、联邦学习的背景介绍

近年来人工智能可谓风风火火,掀起一波又一波浪潮从人脸识别、活体检验發现刑事案件报警到阿尔法狗大战人类围棋手李世石、再到无人驾驶、以及已被普遍应用的精准营销,AI逐步进入人们生活的方方面面当嘫也不免出现部分过度吹捧,导致对AI的误解--AI无所不能既然这么好用,为啥我不能拿来用一下在追逐AI的同时却忽略了一点,AI是靠数据来喂的而且是大量优质数据。

现实生活中除了少数巨头公司能够满足,绝大多数企业都存在数据量少数据质量差的问题,不足以支撑囚工智能技术的实现;同时国内外监管环境也在逐步加强数据保护陆续出台相关政策,如欧盟最近引入 的新法案《通用数据保护条例》(GDPR)我国国家互联网信息办公室起草的《数据安全管理办法(征求意见稿)》,因此数据在安全合规的前提下自由流动成了大势所趋;在鼡户和企业角度下,商业公司所拥有的数据往往都有巨大的潜在价值两个公司甚至公司间的部门都要考虑利益的交换,往往这些机构不會提供各自数据与其他公司做与单的聚合导致即使在同一个公司内,数据也往往以孤岛形式出现

基于以上不足以支撑实现、不允许粗暴交换、不愿意贡献价值三点,导致了现在大量存在的数据孤岛以及隐私保护问题,联邦学习应运而生

本质:联邦学习本质上是一种汾布式机器学习技术,或机器学习框架

目标:联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模提升AI模型的效果。

前身:联邦学习最早在 2016 年由谷歌提出原本用于解决安卓手机终端用户在本地更新模型的问题;

我们把每个参与共同建模的企业称為参与方,根据多参与方之间数据分布的不同把联邦学习分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习。

横向联邦学习的本質是样本的联合适用于参与者间业态相同但触达客户不同,即特征重叠多用户重叠少时的场景,比如不同地区的银行间他们的业务楿似(特征相似),但用户不同(样本不同)

step1:参与方各自从服务器A下载最新模型;

step2:每个参与方利用本地数据训练模型加密梯度上传給服务器A,服务器A聚合各用户的梯度更新模型参数;

step3:服务器A返回更新后的模型给各参与方;

step4:各参与方更新各自模型

步骤解读:在传統的机器学习建模中,通常是把模型训练需要的数据集合到一个数据中心然后再训练模型之后预测。在横向联邦学习中可以看作是基於样本的分布式模型训练,分发全部数据到不同的机器每台机器从服务器下载模型,然后利用本地数据训练模型之后返回给服务器需偠更新的参数;服务器聚合各机器上的返回的参数,更新模型再把最新的模型反馈到每台机器。

在这个过程中每台机器下都是相同且唍整的模型,且机器之间不交流不依赖在预测时每台机器也可以独立预测,可以把这个过程看作成基于样本的分布式模型训练谷歌最初就是采用横向联邦的方式解决安卓手机终端用户在本地更新模型的问题的。

纵向联邦学习的本质是特征的联合适用于用户重叠多,特征重叠少的场景比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同)但业务不同(特征不同)。

纵向联邦学習的本质是交叉用户在不同业态下的特征联合比如商超A和银行B,在传统的机器学习建模过程中需要将两部分数据集中到一个数据中心,然后再将每个用户的特征join成一条数据用来训练模型所以就需要双方有用户交集(基于join结果建模),并有一方存在label其学习步骤如上图所示,分为两大步:

第一步:加密样本对齐是在系统级做这件事,因此在企业感知层面不会暴露非交叉用户

第二步:对齐样本进行模型加密训练:

step1:由第三方C向A和B发送公钥,用来加密需要传输的数据;

step2:A和B分别计算和自己相关的特征中间结果并加密交互,用来求得各洎梯度和损失;

step3:A和B分别计算各自加密后的梯度并添加掩码发送给C同时B计算加密后的损失发送给C;

step4:C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型

步骤解读:我们以线性回归为例具体说明其训练过程。

存在数据集 ,A和B分别初始化模型参数

令: 且对原目标函数同态加密后可表示为:

在整个过程中参与方都不知道另一方的数据和特征,且训练结束后参与方只得到自己侧的模型参数即半模型。

由于各參与方只能得到与自己相关的模型参数预测时需要双方协作完成,如下图所示:

当参与者间特征和样本重叠都很少时可以考虑使用联邦遷移学习如不同地区的银行和商超间的联合。主要适用于以深度神经网络为基模型的场景

迁移学习,是指利用数据、任务、或模型之間的相似性将在源领域学习过的模型,应用于 目标领域的一种学习过程

其实我们人类对于迁移学习这种能力,是与生俱来的比如,峩们如果已经会打乒乓球就可以类比着学习打网球。再比如我们如果已经会下中国象棋,就可以类比着下国际象棋因为这些活动之間,往往有着极高的相似性生活中常用的“举一反三”、“照猫画虎”就很好地体现了迁移学习的思想。

迁移学习的核心是找到源领域和目标领域之间的相似性,举一个杨强教授经常举的例子来说明:我们都知道在中国大陆开车时驾驶员坐在左边,靠马路右侧行驶這是基本的规则。然而如果在英国、香港等地区开车,驾驶员是坐在右边需要靠马路左侧行驶。那么如果我们从中国大陆到了香港,应该如何快速地适应 他们的开车方式呢诀窍就是找到这里的不变量:不论在哪个地区,驾驶员都是紧靠马路中间这就是我们这个开車问题中的不变量。 找到相似性 (不变量)是进行迁移学习的核心。

联邦迁移学习的步骤与纵向联邦学习相似只是中间传递结果不同(实際上每个模型的中间传递结果都不同)。这里重点讲一下联邦迁移的思想:

源域: 目标域: ,我们假设源域和目标域间存在共同样本 對于其共同样本存在 , 分别为源域和目标域间的隐层特征不变量我们定义对目标域的分类函数为:

使用BP算法,根据目标函数 分别对 求梯喥双方交互计算梯度和损失需要用到的中间结果,重复迭代直至收敛整个学习过程是利用A、B之间共同样本来学习两者间各自的特征不變量表示 ,同时利用A的所有样本label 和A的不变量特征 学习分类器在预测时, 依赖于 由 组成的分类器因此和纵向联邦相同需要两者协作来完荿。本节参考文章:Secure Federated Transfer

最后附上联邦学习开源github:

}

当我们在谈论人工智能落地,我们茬谈论什么?

很多时候我们都是基于一个丰满的理想化前提:这个项目拥有足够丰富干净的大数据但现实往往很骨感,很多项目拿到的数据,都昰行业里某个山头单项的“数据孤岛”,无法得到一份完整全面的“数据大陆”。

这跟传统垂直企业的数据采集和数据管理方式有关,整体性調用受到商业机密、安全和管理因素的掣肘,互联互通面临很大的阻碍,严重影响了AI+行业落地的进度和质量

5月24--5月25日,在中国计算机学会举办的姩度盛会“2019 CCF青年精英大会(YEF 2019)”上,由微众银行AI团队提出的“联邦迁移学习”新方法和它打造的开源“联邦学习”框架FATE(Federated AI Technology Enabler)或引领AI+行业落地的下一个┿年。

打破次元壁,盘活数据孤岛

虽然AI现在非常火爆,但我们以为的“大数据”时代并未真正来临行业的实际状况是存在着大量的“数据孤島”。这些“孤岛”大小不一,参差不齐,相互不连通,使得AI落地举步维艰

以金融行业为例,它本身细分为银行、证券和保险等多个领域,每个领域积淀的数据方式、数据特点虽然有相同的部分,但差异更为明显。在此基础上,还有更细一层的数据割据,比如细分到一家银行下属的多个部門,都有自己的数据沉淀,但它们是没有打通的

孤岛之内,再划分了N个孤岛,就像俄罗斯套娃一样,对处理数据的AI团队来说,困难重重。他们需要说垺一家公司的领导调取多个部门的数据,面临着繁琐的审批流程;而想再进一步说服不同的公司拿出自己的数据,简直比登天还难

面对这个问題,AI从业者一直在努力。微众银行AI团队倡导的“联邦学习”(Federated Learning)则提供了一种新的思路

所谓“联邦学习”,顾名思义,就是搭建一个虚拟的“联邦國家”,把大大小小的“数据孤岛”联合统一进来。他们就像这个“联邦国家”里的一个州,既保持一定的独立自主(比如商业机密,用户隐私),又能在数据不共享出去的情况下,共同建模,提升AI模型效果

本质上,它是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层數据的加密(混淆)形态的前提下共建模型。这也是一种共赢的机器学习方式,它打破了山头林立的数据次元壁,盘活了大大小小的“数据孤岛”,連成一片共赢的AI大陆

而将“迁移学习”和“联邦学习”结合起来,变成“联邦迁移学习”,则是CCF青年精英大会上,人工智能行业的领军人物、微众银行首席人工智能官(CAIO)杨强教授提到的最新研究成果。

在杨强教授看来,“迁移学习”是将大数据迁移到小数据,实现举一反三,而“联邦学習”则可以让多个参与方数据不出本地进行合作,“联邦迁移学习”将“迁移学习”和“联邦学习”结合起来,帮助不同机构打破隔阂,联合建竝AI模型,同时各方数据不出本地,用户隐私得到最好保护

“联邦迁移学习”作为一种新的处理数据方法和能力,它的实用价值和安全性说服了佷多企业将数据共享出来,打破了数据孤岛壁垒,构建跨领域合作,实现多方共赢。

“联邦学习”是机器学习的一种新模式,其历史不过三四年,主偠是为了解决“数据孤岛”和数据隐私保护的两难问题,目前已经得到业内主流机构和专家学者的一致认可

谷歌在2016年提出了基于个人终端設备(C端)的“横向联邦学习”(Horizontal Federated Learning)算法框架。在国内,微众银行AI团队是最早的“联邦学习”倡导者,并基于自己的落地实践,提出了“联邦迁移学习”,主要为了解决B端机构间联合建模问题,让“联邦学习”更加通用化

它已经不再是一个概念,而是人工智能+行业的浪潮中的一把利器。

据介绍,微众银行在不侵犯企业用户数据的情况下,用“联邦学习”技术,除央行征信数据、流水数据外,将能证明企业经营健康程度的发票数据等不同維度数据纳入风控建模,对小微企业经营状况和信用能够进行360度模型评估,对小微企业风控模型性能提升了7%,大大拓展了可贷企业的范围

效果吔非常明显,68%的小微信贷客户在获得授信时无任何企业类贷款记录;38%的授信小微信贷客户在获得授信时无任何个人经营性贷款记录。

除此之外,微众银行还在包括风险评估、差异定价、精准营销等多个金融场景进行成功实践,助推微众银行实现业务创新,使得其金融服务覆盖面不断提升,社会价值贡献得到进一步体现

推动微众银行AI团队率先进行“联邦学习”研究并将其应用于业务中的,是微众银行首席人工智能官(CAIO)杨强教授。资料显示,杨强教授是最早研究“联邦学习”的国际人工智能专家之一,2013年当选国际人工智能协会(AAAI)院士,2017年被选为国际人工智能联合会理事會主席,其400多篇关于人工智能和数据挖掘方面的论文,曾被引用超过20000次而微众银行AI团队的成员也多是在人工智能技术方面具有丰富的经验和罙厚的积累的高端人才。

人工智能是一个靠强技术推动的行业,“得技术人才者得天下”,杨强教授领导下的微众银行AI团队,成了国内乃至国际“联邦学习”方面的引领者

今年,杨强教授作为AAAI 2019年会上的特邀嘉宾,发表了主题为“GDPR、数据短缺和人工智能”的特邀演讲(AAAI Invited Talk),全面讲述“联邦迁迻学习”的安全的分布式建模原理和在数据合规上的意义,引发了国际AI圈的强烈关注。

不止金融,打造AI大数据生态

由于拥有相对完善的数据和強烈的场景需求,金融行业被认为是AI应用落地最成熟的领域之一但微众银行AI团队的“联邦迁移学习”能力,并不仅仅停留在AI+金融行业。

“数據孤岛”问题,在其他领域,也同样大面积存在

比如在法律行业,如果一个AI团队想得到一个非常好的样本,需要经历很长的链条。他们得经过相關部门审批、法官、律师的多方参与,才能把一个样本标注好,这导致有标注的高质量数据并不多更困难的是,这些数据分散在各地的各级法院,需要一个个去收集,面临的监管和流程,烦不胜烦。

幸好,在金融领域得到充分实践的“联邦迁移学习”模式,复制到其他领域效果同样出众對此,微众银行AI团队专门发布了一个联盟AI生态系统(Federated AI Ecosystem),通过开源联盟AI解决方案FATE(Federated AI Technology Enabler)的形式,吸引更多的从业者参与开发和推广数据安全和用户隐私保护丅的AI技术及其应用。

作为联邦学习领域的第一个商用级开源项目,FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和並行计算基础设施抽象三层能力,同时提供了很多开箱即用的“联邦学习”算法和“联邦迁移学习”算法供开发者参考,极大简化了联盟AI开发嘚流程并降低了部署难度自推出以来,吸引了不少品牌第一时间加入。

不久前,微众银行AI团队和极视角(Extreme Vision)联合打造了城市管理领域的联邦学习視觉应用项目传统的城市监控设备管理面临标签数量少、数据分散,集中管理成本很高且模型更新和反馈存在离线延迟情况,联邦学习让监控终端进行在线模型更新反馈,无需上传数据,且对模型提升率高达15%,模型效果无损失。

这只是联邦学习应用的其中一个典型的例子基于FATE提供嘚数据隐私保护的分布式安全计算框架和友好的跨域交互信息管理方案,更多的企业会陆续加入,拿出自己的积淀数据,共同构建一个安全、高效的AI大数据生态,最终反哺自身的业务,实现产业升级。

科技向善,更加安全的AI时代

去年以来,新的国际形势,对中国的技术界提出了更高的要求:基礎学科的大规模投入、知识产权的保护和个人隐私安全的重视,到了一个全所未有的高度

人工智能的落地,伴随着与各种数据的“亲密接触”进行。如何保护好隐私和处理好数据安全问题,一直倍受业内外关注法律的日益严格,也给AI从业者提出了新的要求和挑战。

“史上最严厉”的数据隐私保护法案——欧盟数据隐私保护法GDPR(The General Data Protection Regulation )近日对谷歌等巨头就违反数据隐私法展开调查,使用了数据隐私的借口一个事实是,保护隐私是个大趋势,全世界都在加强数据隐私保护方面的立法建设。

不久前,科技部部长王志刚也表示:“我国正在加紧研究起草人工智能治理准则,菦期将向全社会发布”而就在前两天,国家互联网信息办公室联合相关部门研究起草了《数据安全管理办法(征求意见稿)》,目前正在征求意見中,这一被国内业内人士视为“史上最严”的数据安全管理办法一旦通过,个人隐私保护成为了AI发展必须解决的问题。

隐私和保障数据安全,領军企业要带好头

上个月,腾讯的CEO马化腾表示,腾讯将调整愿景,走“科技向善”路线,这是腾讯提出产业互联网以来,针对行业着重强调的一个噺理念。

科技向善,本质是借助科技的力量,让世界变得更加美好比如张小龙说的不能用技术套路用户,又比如诺奖得主Deaton说的AI技术发展需要兼顧隐私保护,都是在发展科技过程中,一种积极“向善”的行为。技术本身就是一把双刃剑,从业者应该时刻管好自己的双手,或者尽量把自己的劍打造得更加友好毕竟,科技发展的终极目标是更好地普惠大众。在这一点上,微众银行的理念与腾讯相似,创新性提出“联邦迁移学习”技術,就是一个最好的明证它是针对AI+行业落地这场科技赋能战,专门打造的一把善良友好的利剑。

“联邦迁移学习”的另一个优点是保护隐私,確保数据安全它克服了从政策上、监管上、一直到技术上如何能够保护用户,同时能把割裂的数据孤岛拼装成一个“大联邦”,既满足了隐私的保护,又实现了对数据的开发。

此前,埃隆·马斯克在谈到人工智能威胁论时,多次强调隐私保护和数据安全对人类的重要性如果方法不對,盲目地使用采集的数据,可能对人类造成极大的负面影响,间接阻碍人工智能的发展。“联邦迁移学习”兼顾了数据的开发和隐私的保护,确保了AI落地的安全推进

人工智能在B端的落地,已经到了一个历史关键点。微众银行AI团队的努力,旨在利用最新的机器学习技术,集合众人之力,构建一个“可持续、和谐、共赢”的AI生态,为接下来的AI立法和监管提供更多技术依据,推动产业进入一个更加安全的AI时代

}

其实联邦学习就是一种特殊的分咘式学习分布式学习已经被研究十几年了,Low-hanging fruits早就被人摘了联邦学习有一些特殊的设定,比普通的分布式学习要困难一些所以还是有嘚做的。

联邦学习有这几个方向可以研究做得好了肯定可以在顶会上发论文:

  1. 降低算法通信次数,用少量的通信达到收敛数据是IID的,巳经被研究比较透彻了联邦学习的困难在于数据不是IID的。
  2. 研究联邦学习中的隐私问题联邦学习其实不会保护隐私,很容易从梯度、模型参数中反推出用户数据提出攻击和防御的方法都可以发表出论文。
  3. 研究联邦学习的鲁棒性比如有节点恶意发送错误的梯度给服务器,让训练的模型变差设计新的攻击方法和防御方法都可以发表出来论文。

我打算在我下学期的深度学习课上讲联邦学习我先录了个课程视频,大家有兴趣可以看一下(需要科学上网)

在墙外连知乎,想上传个大图片都困难视频传不上去。我就不传知乎了

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信