科技改變生活 · 科技引領未來
人工智能時代 , 存在的最大問題是是魚和熊掌不可兼得 , 也就是隱私性和可用性難以兼顧。如果你想要 AI 本身系統發揮作用 , 就可能要先犧牲隱私 , 但在大量的真實場景當中 , 如果不能同時兼顧到隱私性和可用性 , 會導致很多 AI 落地的困境。
比如舉一個貸款風控的例子。如果用戶想要去銀行做貸款 , 先來到了銀行 A, 銀行 A 基于一些本地數據判斷這個 A 是一個壞人 , 我們不可以給他貸款 , 這個人就到了銀行 B, 但是銀行 B 沒有銀行 A 的這些數據 , 所以銀行 B 也許會把這筆貸款發放給用戶本人。這些由數據不流通所導致的矛盾比比皆是。
為了解決這一問題 , 國內外不少科技公司先后推出了解決方案 , 比如谷歌推出的聯邦學習、螞蟻金服提出的共享智能等。
共享智能為什么能夠獲得產學研各界的廣泛關注?
近年來 , 隨著隱私保護越來越受重視 , 相關法規逐漸出臺 , 互聯網公司難以任意的獲得數據 ; 但在另一方面 , 基于大數據的人工智能需要更多更完善的數據才能發揮更大的作用。就像上面所提到的例子一樣 , 如何在保護隱私和數據安全的前提下 , 聯合多方數據進行 AI 訓練和分析 , 成為學術界和產業界的研發熱點。
螞蟻共享智能作為一個新興的交叉學科 , 近些年獲得了學術界、產業界以及研究機構的廣泛關注。數據已經是一種生產要素 , 重要性不言而喻。數據不僅是各類大數據應用的基礎 ; 數據的質量和數量也已經成為影響人工智能模型效果最重要的因素之一。當今各種應用產生并收集了大量的數據 , 同時也是使用數據的大戶。隨著 AI 模型能力和算力的提升 , 各種應用場景對各種異構、異源數據的使用效率也在飛速提升。
然而 , 數據的廣泛使用在提升應用效果的同時也引發了我們對于數據安全性的擔憂。這主要是歸結于數據自身的兩個很重要的特性 : 一個是可復制性 , 一個是可復用性。可復制是指 , 數據可以被完整的、極低成本的拷貝 ; 可復用性是指 , 某份數據可以被多個不同領域的場景復用 , 也可以在相對長的一個時間軸上被復用。
所以如果不同應用之間直接共享數據 , 那么可復制性和可復用性 , 一定會導致數據泄露的情況 , 也就是被留存二次使用 , 從而侵犯了商業利益。更為嚴重的是 , 如果是個人相關的數據 , 很多時候 , 數據的管理者和使用者并不是數據的所有者。一旦在數據共享的過程中 , 發生了數據泄露 , 被對方濫用 , 那數據的管理者不僅僅是商業利益受到侵犯 , 它很可能也沒有盡到數據管理的責任。從歐盟的 GDPR 開始 , 到美國 CCPA, 到中國的數據安全法、網絡安全法、個人信息保護法都對這種數據管理失責 , 和數據濫用 , 提出了嚴格的規范。所以各大數據方 , 出于保護商業利益、法律風險、輿論風險各方面考慮 , 都在收緊數據共享 , 從而形成了大數據孤島。
螞蟻共享智能就是為解決數據協作需求與隱私泄露和數據濫用之間矛盾的技術解決方案 , 不直接共享數據的情況下 , 連通大數據孤島 , 實現多方數據可用不可得 , 也就是拿不走 , 看不見 , 但是用得好。
共享智能憑什么可以成為國際標準?
早在 2016 年 , 螞蟻就開始致力于共享智能的技術研發 , 并在螞蟻內部及合作伙伴方的智能信貸、智能風控等業務領域中率先應用。螞蟻共享智能具有以下特點 :
(1)多種安全計算引擎整合 , 可基于不同業務場景來選擇合適的安全技術。既有基于 TEE 的集中式解決方案 , 也有基于 MPC 的分布式解決方案 ; 既可滿足數據水平切分的場景 , 也能解決數據垂直切分的訴求 ; 既可以做模型的訓練預測 , 也可以做數據的探查和分析。
(2)支持基于 SQL 語法的數據分析、各種數據預處理算子和多種機器學習算法。支持的算法包括但不限于 LR,GBDT,Xgboost,DNN,CNN,RNN,GNN 等。
(3)大規模集群化。支持大規模集群化 , 提供金融級的高效、穩定、系統化的支撐。
值得一提的是 , 共享智能有四個基石性的研究方向 , 分別是多方安全計算 , 可信執行環境 , 差分隱私 , 以及聯邦學習。
多方安全計算和可信執行環境側重解決計算過程中的數據安全問題 , 差分隱私側重保護計算結果里的隱私泄露 , 而聯邦學習擅長解決大數據孤島帶來的人工智能算法收斂性及效率問題。單獨的一個方向并不能解決多方數據可用不可得的問題 , 共享智能的研究既包括推動這四個基礎方向的進步 , 又包括對這四個方向的融合創新 , 從而提供滿足不同實際需求的多種產品與服務。
這些技術在實踐中表現出了獨特的優勢 , 可以應用于不同場景。比如基于可信執行環境的方案可以做中心化部署 , 用戶的接入成本是比較低 ; 而基于多方安全計算的方案 , 相關的安全技術對用戶來說是透明的 , 給用戶的安全體感強。同時 , 多種技術并不是隔離的 , 在面對一個復雜問題的時候 , 對技術的選型不是非此即彼的關系 , 把不同的技術融合到一起 , 發揮各自技術的優勢 , 往往會達到一個更為理想的效果。
不久前 , 螞蟻牽頭的共享智能聯盟標準就在 AIIA(中國人工智能產業發展聯盟)正式發布 , 這也是全國首個共享智能的聯盟標準。事實上 , 早在 2019 年 , 共享智能就已經亮相國際舞臺。螞蟻在 IEEE(電氣和電子工程師協會)、ITU-T(國際電信聯盟)中牽頭推進 “共享學習技術框架和技術要求”和 “共享學習系統技術框架”國際標準的制定 , 來解決行業痛點 , 讓數據在安全環境下進行連接、合作、共創、賦能 , 充分釋放多方數據價值。
共享智能技術在行業內 , 也獲得了一些行業獎項 , 體現了行業內對這一技術的認可度。2019 年 , 在中國人工智能峰會上獲得了紫金產品創新獎 , 在全球人工智能創業者大會上獲得應用案例示范獎 , 在的世界人工智能產業安全上獲得了十大創新實踐 , 在 CCF(中國計算機學會), 獲得了科技進步優秀獎。
標準是創新也是前瞻 , 不僅解決當前的問題 , 也能解決未來的問題。作為一家致力于為世界帶來平等普惠金融服務的科技公司 , 螞蟻金服一直走在國內外標準制定的前列 , 助力推動技術的規范化發展。
螞蟻共享智能的應用實踐
金融行業作為一個數據驅動的行業 , 不僅對數據的管控更嚴格 , 對數據的隱私保護也會更加重視 , 因此也是最需要通過技術手段解決數據孤島問題的行業 , 這也是很多技術實踐都優先選擇落地金融領域的原因。而螞蟻共享智能就憑借多年金融實踐和廣泛應用 , 獨樹一幟 , 成功幫助金融等相關行業逐步解決隱私泄露和數據濫用的數據共享難題 , 為大數據在更多領域的深度應用保駕護航。
接下來分享三個典型落地案例。
一個是在安全風控領域 , 螞蟻基于共享智能技術將風控能力賦能合作伙伴 , 聯合數據建模提升模型性能 , 來建立安全風控網絡。生態伙伴可以使用可信執行環境技術 , 把數據加密傳輸到網絡中共建這個模型 , 打擊虛假交易、團伙作案等 , 大幅度提升風控準確率 , 實現風控網絡的凈化。通過這樣的風控網絡平臺 , 使得商家每天新增很多的交易 , 同時降低資損。
第二個是中和農信 , 螞蟻通過數據融合大幅度提高風控性能 , 把原來傳統的線下模式 , 變成線上自動過審模式 , 完成授信只需 5 分鐘 , 8 個月累計放款 31.9 億 , 授信成功人數 44 萬人 , 業務覆蓋 20 + 省區 , 300 + 縣城 , 10000 + 個鄉村 , 助力實現農村普惠金融。
第三個是與江蘇銀行建立信貸聯合風控機制 , 通過共享智能技術 , 構建共同的模型強化風控管理 , 讓信貸防控的效果進一步提升。基于聯合風控機制 , 江蘇銀行能夠在獲得貸款申請后 , 通過數據交互 , 依據多方數據進行更科學的信貸決策 , 在這個過程中 , 用戶的數據和隱私也得到了有效的保護。在螞蟻共享智能等前沿技術加持下 , 江蘇銀行通過聯合風控系統 , 提升綜合服務、智慧風控能力 , 破解信貸難題 , 在實現風險抵御能力增強的同時 , 推動業務穩步增長 , 資產質量持續改善。
總的來說 , 螞蟻希望構建開放的共享智能網絡 , 有更多的伙伴、機構參與進來 , 一起完成建設 , 打破數據孤島 , 助力 AI 技術更好的落地和應用。
何龍林