日韩专区第一页-日韩中文字幕在线亚洲一区-日韩中文字幕在线观看视频-日韩中文字幕在线播放-日韩中文字幕一区二区不卡-日韩中文字幕一区
啟智社區(qū),確實(shí)給力
首頁
社區(qū)
OpenI社區(qū)章程
組織結(jié)構(gòu)
啟智許可證
歡迎加入OpenI
社區(qū)動態(tài)
項目
學(xué)習(xí)
社區(qū)活動
我為開源打榜狂
OpenI體驗官
激勵計劃
開發(fā)者大會
全球智博會
全國人工智能大賽
開源大賽
校園行
集結(jié)號
EngineClub
主題沙龍
人工智能開源錄
名家講堂
論壇
AI協(xié)作平臺
資訊
?
所有
?
社區(qū)動態(tài)
?
成員動態(tài)
?
行業(yè)資訊
?
開發(fā)者分享
當(dāng)前位置:
首頁
>
資訊
>
行業(yè)資訊
>
沒有領(lǐng)域和算法限制,聯(lián)邦學(xué)習(xí)是打破數(shù)據(jù)孤島的利器
2019-05-05 15:22:31
機(jī)器學(xué)習(xí)已發(fā)展幾十年,在互聯(lián)網(wǎng)普及的過程中,大量數(shù)據(jù)產(chǎn)生,傳統(tǒng)模型在記憶量與擬合能力上遇到瓶頸。借著 GPU 算力大漲的東風(fēng),深度學(xué)習(xí)被用于突破這個瓶頸,進(jìn)而產(chǎn)生了很多應(yīng)用。隨著機(jī)器學(xué)習(xí)應(yīng)用的進(jìn)一步發(fā)展,社會各個成員對數(shù)據(jù)安全隱私意識開始覺醒,造成了很多數(shù)據(jù)孤島。基于單個數(shù)據(jù)擁有方,越來越難以構(gòu)建效果良好的機(jī)器學(xué)習(xí)模型,這就需要有新的技術(shù)出現(xiàn)來解決孤島問題。
陳天健認(rèn)為,聯(lián)邦學(xué)習(xí)是最有可能解決孤島問題的技術(shù)。為什么他會這樣說?
聯(lián)邦學(xué)習(xí)的含義和原理
首先,聯(lián)邦學(xué)習(xí)是什么?這一名稱和聯(lián)邦制有什么共通之處嗎?
陳天健表示,和很多其他技術(shù)一樣,聯(lián)邦學(xué)習(xí)是先有英文名字:Federated Learning。在對這個技術(shù)不斷深入研究的過程中,微眾銀行的 AI 團(tuán)隊發(fā)覺需要一個比較傳神的中文名字方便對中文科研與技術(shù)社區(qū)的推廣。微眾銀行首席人工智能官(CAIO),同時還是中國人工智能學(xué)會副理事長、AAAI/ACM/IEEE Fellow、IJCAI 理事長的楊強(qiáng)最先提議使用“聯(lián)邦學(xué)習(xí)”這個名字,以體現(xiàn)促進(jìn)多方合作的同時保持獨(dú)立,“君子和而不同”的含義。
陳天健認(rèn)為,聯(lián)邦學(xué)習(xí)中的“聯(lián)邦”更多的是強(qiáng)調(diào)一種開放、平等、包容的 AI 合作生態(tài),和歷史上出現(xiàn)的聯(lián)邦制國家的概念還是有明顯區(qū)別的。
(聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu))
其次,聯(lián)邦學(xué)習(xí)的基本原理是什么?業(yè)內(nèi)人士都在強(qiáng)調(diào)聯(lián)邦學(xué)習(xí)在數(shù)據(jù)隱私方面的重大意義,那么
它是如何在不共
享隱私數(shù)據(jù)的情況下,進(jìn)行協(xié)同的訓(xùn)練
?
陳天健解釋道,簡單來說,聯(lián)邦學(xué)習(xí)不用匯聚模型訓(xùn)練所需的數(shù)據(jù)進(jìn)行集中計算,而是分散機(jī)器學(xué)習(xí)的計算到參與各方的數(shù)據(jù)庫上進(jìn)行加密的分布式計算。為了協(xié)調(diào)各個分布式計算的節(jié)點(diǎn),梯度相關(guān)數(shù)據(jù)需要被傳遞,這就需要對梯度相關(guān)數(shù)據(jù)進(jìn)行隱私保護(hù),防止原始數(shù)據(jù)被反向推算出來。
整個模型訓(xùn)練過程自始自終、沒有任何原始數(shù)據(jù)和原始數(shù)據(jù)的加密 / 脫敏數(shù)據(jù)被傳輸,從而保護(hù)了數(shù)據(jù)擁有者各自的隱私。
聯(lián)邦學(xué)習(xí)技術(shù)突破
在全球范圍內(nèi),最近聯(lián)邦學(xué)習(xí)技術(shù)有了哪些最新的進(jìn)展和突破才得以被業(yè)界關(guān)注?
從 2017 年開始,大量的聯(lián)邦學(xué)習(xí)技術(shù)成果被報導(dǎo)出來。陳天健認(rèn)為,以谷歌研究院團(tuán)隊為代表的技術(shù)流派比較看重移動設(shè)備上的隱私保護(hù)問題,嘗試建立數(shù)百萬 Android 設(shè)備之間的聯(lián)邦模型,以避免用戶隱私數(shù)據(jù)上傳到數(shù)據(jù)中心后的隱私權(quán)、遺忘權(quán)實(shí)踐問題。而以微眾銀行 AI 團(tuán)隊為代表的技術(shù)流派,比較看重跨機(jī)構(gòu)跨組織大數(shù)據(jù)合作場景,尤其是銀行金融場景的數(shù)據(jù)安全和隱私保護(hù)問題,并且嘗試將聯(lián)邦學(xué)習(xí)框架通用化,并引入遷移學(xué)習(xí)技術(shù)進(jìn)一步提高數(shù)據(jù)利用率和模型效果。
微眾銀行開源工業(yè)級聯(lián)邦學(xué)習(xí)框架
在開源上,微眾銀行走在了前面。在 GitHub 上,微眾銀行 AI 團(tuán)隊已經(jīng)開源了工業(yè)級的聯(lián)邦學(xué)習(xí)技術(shù)框架 Federated AI Technology Enabler(簡稱 FATE)。FATE 項目不僅提供了一系列開箱即用的聯(lián)邦學(xué)習(xí)算法、比如 LR、GBDT、CNN 等等,更重要的是給開發(fā)者提供了實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法和系統(tǒng)的范本,大部分傳統(tǒng)算法都可以經(jīng)過
一定改造適配到聯(lián)邦學(xué)習(xí)框架中來。
之所以叫做“工業(yè)級”的聯(lián)邦學(xué)習(xí)技術(shù)框架,主要原因是 FATE 解決了三個工業(yè)應(yīng)用常見的問題
計算架構(gòu)可并行
:FATE 提供內(nèi)建的并行計算機(jī)制支持大規(guī)模建模應(yīng)用,百萬樣本也不是問題;
信息交互可審計
:FATE 框架所有跨域數(shù)據(jù)交流都被獨(dú)立定義和管控起來,方便信息安全審計;
接口清晰可擴(kuò)展
:FATE 各層 IO 和計算接口均被很好抽象,方便進(jìn)行各種計算機(jī)制 / 數(shù)據(jù)庫的對接。
FATE GitHub 開源地址:https://github.com/WeBankFinTech/FATE
哪個技術(shù)處理隱私問題最直接有效?
事實(shí)上,業(yè)界在數(shù)據(jù)隱私保護(hù)方面已經(jīng)有一些探索,比如谷歌于今年 3 月推出的 TensorFlow Privacy(https://medium.com/tensorflow/introducing-tensorflow-privacy-learning-with-differential-privacy-for-training-data-b143c5e801b6)機(jī)器學(xué)習(xí)框架開源庫,英特爾開源的 HE-Transformer(https://venturebeat.com/2018/12/03/intel-open-sources-he-transformer-a-tool-that-allows-ai-models-to-operate-on-encrypted-data/)等。相比于這些解決方案,聯(lián)邦學(xué)習(xí)在原理上和它們有哪些差異?哪個技術(shù)解決隱私問題的潛力更大一些呢?
陳天健告訴 AI 前線,TensorFlow Privacy 是一個實(shí)驗性項目,主要是利用差分隱私技術(shù)對模型進(jìn)行轉(zhuǎn)換,防止模型樣本數(shù)據(jù)通過無數(shù)次推理被反向解算。而 HE-Transformer 在設(shè)計上更多是讓模型可以計算同態(tài)加密過的用戶數(shù)據(jù)以完成推理過程,避免在推理過程中使用用戶原始數(shù)據(jù)。這些技術(shù)的源頭非常早了,早期的加密機(jī)器學(xué)習(xí)都是這個路數(shù)。但對建模階段的數(shù)據(jù)保護(hù),僅僅用同態(tài)加密或者差分隱私很難完成,上述兩個框架都沒有解決方案。真正要完整解決建模 + 預(yù)測全流程全生命周期的數(shù)據(jù)安全與隱私保護(hù)問題,需要深度結(jié)合機(jī)器學(xué)習(xí)和 MPC 兩個技術(shù)領(lǐng)域,這就是聯(lián)邦學(xué)習(xí)的天下了。
相對 TensorFlow Privacy 來說,TensorFlow Federated 項目方便了開發(fā)者開發(fā)橫向聯(lián)邦學(xué)習(xí)應(yīng)用,“我覺得應(yīng)該更多關(guān)注 TensorFlow Federated。”在數(shù)據(jù)隱私保護(hù)這一問題上,陳天健給出了他的看法。
落地應(yīng)用
在金融行業(yè)中,聯(lián)邦學(xué)習(xí)技術(shù)目前已經(jīng)有了一些比較成功的落地應(yīng)用,聯(lián)邦學(xué)習(xí)的效果立竿見影。
微眾銀行在信貸風(fēng)控、客戶權(quán)益定價和監(jiān)管科技領(lǐng)域同時在推動一系列聯(lián)邦學(xué)習(xí)的應(yīng)用落地,比如小微企業(yè)信貸風(fēng)控上,模型的性能每提高模型 1% 都很困難,微眾銀行使用銀行數(shù)據(jù)和發(fā)票數(shù)據(jù)進(jìn)行聯(lián)邦學(xué)習(xí)建模后,效果比單獨(dú)使用銀行數(shù)據(jù)提高了 12%;再如,銀行如果想為客戶解決差異化權(quán)益定價、由于數(shù)據(jù)傾斜的問題,通常只能覆蓋 8%~12% 的客戶,而微眾銀行使用銀行數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行聯(lián)合建模之后,覆蓋率提升到 92%,大幅提升了銷售轉(zhuǎn)化水平。
另外,在監(jiān)管科技領(lǐng)域,微眾銀行在央行的支持下正在協(xié)同各家銀行建立聯(lián)邦反洗錢模型,落實(shí)國家加強(qiáng)金融監(jiān)管的相關(guān)政策,解決該領(lǐng)域樣本少,數(shù)據(jù)質(zhì)量低問題。
對IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)兩年內(nèi)推出有信心
近日,AI 前線在 《IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)有望兩年內(nèi)推出,填補(bǔ) AI 領(lǐng)域“黑洞”》(https://www.infoq.cn/article/1x4-HLu85WgWtkHK4bh4)一文中報道了創(chuàng)新工場宣布南京國際人工智能研究院執(zhí)行院長馮霽當(dāng)選 IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會副主席,并預(yù)計 IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)將于兩年內(nèi)推出的消息。事實(shí)上,微眾銀行也是這一標(biāo)準(zhǔn)項目的主要發(fā)起者,同時微眾銀行首席 AI 官楊強(qiáng)教授擔(dān)任了這個標(biāo)準(zhǔn)制定委員會的主席,騰訊、第四范式、京東數(shù)科等企業(yè)也是核心企業(yè)。目前,國內(nèi)外已經(jīng)有三十多個主要的企業(yè)和研究機(jī)構(gòu)參與到標(biāo)準(zhǔn)指定過程當(dāng)中,微眾銀行對于兩年內(nèi)這一標(biāo)準(zhǔn)出爐表示有信心,這是一個開放合作包容的技術(shù),也是一個開放合作包容的社區(qū)平臺。
陳天健表示,因為聯(lián)邦學(xué)習(xí)既是一個技術(shù)也是一個合作接口標(biāo)準(zhǔn),業(yè)界通過 IEEE 標(biāo)準(zhǔn)的形式將對接標(biāo)準(zhǔn)固定下來,可以保證各方的聯(lián)邦學(xué)習(xí)系統(tǒng)能夠沒有障礙地溝通合作,而不會因為各方實(shí)現(xiàn)的微小技術(shù)差異而導(dǎo)致社區(qū)碎片化。
未來前景
在未來,聯(lián)邦學(xué)習(xí)還有哪些應(yīng)用前景?
陳天健表示,聯(lián)邦學(xué)習(xí)是一種面向安全合規(guī)的大數(shù)據(jù)合作的機(jī)器學(xué)習(xí)技術(shù),應(yīng)用前景十分廣泛,并沒有特別的領(lǐng)域或者具體的算法限制,微眾銀行甚至已經(jīng)在機(jī)器視覺、裝備故障檢測等應(yīng)用中和領(lǐng)域合作伙伴開展技術(shù)合作,推動聯(lián)邦學(xué)習(xí)社區(qū)進(jìn)一步發(fā)展。
隨著 5G IoT 技術(shù)的進(jìn)一步發(fā)展,設(shè)備間傳輸帶寬的大幅改善以及邊緣計算性能的增強(qiáng),聯(lián)邦學(xué)習(xí)也將用于 5G IoT 網(wǎng)絡(luò)基礎(chǔ)之上的 AI 能力提升和生態(tài)構(gòu)建。
我們可以從中看出,聯(lián)邦學(xué)習(xí)的未來可期,我們也期待聯(lián)邦學(xué)習(xí)在未來能有更多的應(yīng)用盡快落地,解決數(shù)據(jù)隱私這一越來越嚴(yán)重且全世界人類最關(guān)注的問題之一。
來源:AI前線
采訪嘉賓:陳天健
整理&編輯:Debra