您当前的位置：主页 > 科技 >

AI训练遇隐私难题联邦学习这样打通数据孤岛

2019-11-22 17:00 来源：互联网编辑：运营003

摘要：　

如何在不泄露各自数据隐私的情况下实现数据的共享和模型的共建，同时连通数据割裂的孤岛是当前所面临的问题。

　　本报记者马爱平马越

　　数据可以说是人工智能的燃料。但随着AI落地各个应用场景，数据隐私泄露问题日益严重。数据的交流使用和数据的隐私保护似乎成为了不可调和的矛盾。

　　如何在不泄露各自数据隐私的情况下实现数据的共享和模型的共建，同时连通数据割裂的孤岛是当前所面临的问题。目前各机构正试图利用联邦学习打通人工智能应用的最后一公里，促进人工智能落地。

　　数据孤岛阻碍机器学习训练

　　“互联网时代产生的海量数据，其背后的价值如何能挖掘出来，又会对我们产生什么样的影响？”近日，在由中国计算机学会发起的第四次联邦学习主题研讨会上，微众银行人工智能首席科学家范力欣说，如何发掘和利用这些信息是现在一个非常热门的研究方向，但要安全合规地发挥这些海量数据背后的价值，就涉及到隐私保护问题。

　　随着人工智能的发展，其可能带来的隐私泄露风险也日益凸显。除了备受关注的脸书（Facebook）等巨头公司的用户隐私泄露事件外，目前用于算法训练的数据的来源也让人担忧。有媒体日前报道，在网络商城中有商家公开售卖“人脸数据”，数量达17万条。目前网络商城运营方已认定涉事商家违规，涉事商品已被下架处理。

　　为了应对隐私泄露风险，各国都采取了相应措施。如2018年欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》；2019年5月美国旧金山禁用人脸识别，禁止政府机构购买和使用人脸识别技术，以此来消除技术带来的隐患；从2009年开始到2019年十年间，我国也出台了非常严格的隐私保护法案。

　　但同时，数据隐私的保护也对依赖数据的机器学习形成了巨大挑战。如《通用数据保护条例》要求公司在使用数据前要先向用户声明模型的作用，这份条例的实行让许多大数据公司在数据交流方面非常谨慎。

　　“人工智能需要通过大量的数据学习才能把数据后面的知识挖掘、整理出来，把价值发挥出来。但现实的情况是一方面很多数据质量不好，缺乏标签；另一方面，数据完全分散在各个数据主体、企业的个案里面，是一个个数据孤岛，无法把它们连接起来。”范力欣说，如何在保护数据隐私同时打破数据孤岛是我们现在面临的问题。

　　联邦学习或将提供解决办法

　　在人工智能领域，传统的数据处理模式往往是一方收集数据，再转移到另一方进行处理、清洗并建模，最后把模型卖给第三方。但随着法规的完善和监控愈加严格，如果数据离开收集方或者用户不清楚模型的具体用途，运营者都可能会触犯法律。同时，数据是以孤岛的形式存在的，解决孤岛的直接方案就是把数据整合到一方进行处理。但目前粗暴地将数据聚合是法律法规所禁止的。

　　范力欣表示，联邦学习正是针对数据孤岛和隐私保护而产生的一种解决方式。值得一提的是，2019年4月，李开复也曾在演讲中提到联邦学习。他表示，为了防止最严重的数据滥用，需要制定相应的法规。与此同时也可以尝试“以子之矛攻己之盾”——用更好的技术解决技术带来的挑战，例如同态加密、联邦学习等技术。

　　作为一种分布式机器学习技术，联邦学习可以实现各个企业的自有数据不出本地，而是通过加密机制下的参数交换方式共建模型，即在不违反数据隐私法规的情况下，建立一个虚拟的共有模型。由于数据本身不移动，因此也不会涉及隐私泄露和数据合规问题。这样，建好的模型将在各自的区域仅为本地的目标服务。在这样一个联邦机制下，参与各方可以在不披露底层数据和底层数据的加密（混淆）形态下共建模型，各个参与者的身份和地位相同，这就是为什么这个体系叫做联邦学习。

　　微众银行人工智能部高级研究员范涛介绍，如SecureBoost联邦模型，核心是大家共同构建了一棵“树”，每一方都可以看见这棵“树”，但是每一方看见的东西是不一样的。通过构建这样一棵“树”能够实现算法的性能提升。

　　“联邦学习所使用的数据是不能移动的，但数据背后的知识、数据背后的价值是可以移动、转移、共建的。所有贡献数据的参与者都有同等的权利、获得同等的回馈，这是共同获益的机制。”范涛说。

　　如此，大家就有了动力共建联邦学习的生态。

　　“联邦学习大体可以分为横向联邦和纵向联邦。横向联邦特征维度都一样，通过扩充样本的方式提升模型质量；纵向联邦样本相通，通过扩充特征的方式来实现数据的信息互通，提升模型质量。”范涛说，比如目前的传统反洗钱模型存在样本少、数据质量低的问题，使用横向联邦的技术可以解决这样的问题，在横向联邦里面，不需要进行样本对齐。

　　正在迈向积累经验的落地阶段

[ 编辑：运营BX01 ]

上一篇：人工智能如何应用于农业？赵春江院士：分五步

下一篇：人工智能首次实现多重量子关联的同时分类

中国观察

2019第一届新时代民族产业经济发展高峰论坛

2019年6月16日，第一届新时代民族产业经济发展高峰论坛大会于在

国际金融

“脸书”再现安全漏洞！数亿用户密码无加密

尽管“脸书”的批评者认为用户为了保护其隐私，应该删除他们

AI训练遇隐私难题 联邦学习这样打通数据孤岛

AI训练遇隐私难题联邦学习这样打通数据孤岛