縱向聯邦學習場景下的邏輯回歸(LR)

      網友投稿 980 2022-05-30

      本篇博客主要介紹了華為云可信智能計算服務(TICS)采用的縱向聯邦邏輯回歸(LR)方案。

      一、什么是邏輯回歸?

      回歸是描述自變量和因變量之間相互依賴關系的統計分析方法。線性回歸作為一種常見的回歸方法,常用作線性模型(或線性關系)的擬合。

      邏輯回歸(logistic regression)雖然也稱為回歸,卻不是一種模型擬合方法,而是一種簡單的“二分類”算法。具有實現簡單,算法高效等諸多優點。

      圖1.1? ?二維線性回歸? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1.2? ?三維線性回歸

      1.1 線性回歸(linear regression)

      圖1.1、1.2分別表示二維和三維線性回歸模型,圖1.1的擬合直接(藍線)可表示為?y=ax+b,所有數據點(紅點)到直線的總歐式距離最短,歐式距離常用作計算目標損失函數,進而求解模型;類似的,圖1.2的所有數據點到二維平面的總歐式距離最短。所以線性回歸模型通常可以表示為:

      其中θ表示模型系數。

      1.2 邏輯回歸(LR)

      LR是一種簡單的有監督機器學習算法,對輸入x,邏輯回歸模型可以給出 y<0 or y>0 的概率,進而推斷出樣本為正樣本還是負樣本。

      LR引入sigmoid函數來推斷樣本為正樣本的概率,輸入樣本 x 為正樣本的概率可以表示為:P(y|x) = g(y),其中 g() 為sigmoid函數,

      曲線圖如圖1.3所示,輸出區間為0~1:

      圖1.3? ? sigmoid曲線

      對于已知模型 θ 和樣本 x,y=1的概率可以表示為:

      所以sigmoid尤其適用于二分類問題,當 g(y) > 0.5 時,表示 P(y=1|x) > 0.5,將其判為正樣本,對應 y>0 ;反之,當 g(y) < 0.5 時,表示 P(y=1|x) < 0.5,將其判為負樣本,對應 y<0。

      1.3 LR損失函數

      LR采用對數損失函數,對于訓練集x∈S,損失函數可以表示為(參考https://zhuanlan.zhihu.com/p/44591359):

      梯度下降算法是LR模型的經典解法之一,模型迭代更新的表達式如下:

      其中

      l()為目標損失函數,本質為平均對數損失函數。

      S'為批處理數據集(大小為batchsize),通過批處理方式引入隨機擾動,使得模型權重更加快速逼近最優值。

      縱向聯邦學習場景下的邏輯回歸(LR)

      α為學習率,直接影響模型的收斂速度,學習率過大會導致loss左右震蕩無法達到極值點,學習率太小會導致loss收斂速度過慢,長時間找不到極值點。

      二、縱向聯邦學習場景下的LR

      關于縱向聯邦學習的介紹已經屢見不鮮,市面上也涌現出很多優秀的產品,比如FATE、華為可信智能計算TICS等。縱向聯邦可以實現多用戶在不暴露己方數據的前提下,共享數據和特征,訓練出精度更高的模型,對于金融和政務等眾多行業具有重要意義。

      圖2.1 縱向聯邦LR

      2.1 LR的縱向聯邦實現

      縱向聯邦學習的參與方都是抱著共享數據、不暴露己方數據的目的加入到聯邦中,所以任何敏感數據都必須經過加密才能出己方信任域(圖2.1,參考https://arxiv.org/pdf/1711.10677.pdf),這就引入了同態加密算法。同態加密為密文計算提供了可行性,同時也一定程度上影響了機器學習算法的性能。常見的同態加密庫包括seal、paillier等。

      LR的縱向聯邦流程如圖2.2所示,host表示只有特征的一方,guest表示包含標簽的一方。

      圖 2.2 縱向聯邦LR算法實現流程

      在訓練開始之前,作業雙方需要交換同態公鑰。

      每輪epoch(迭代)的batch(一輪batchsize的計算為一個batch)循環中,包含calEncryptedU-->calEncryptedGradient-->decryptGradient-->updateLrModel四步,guest和host都需要按此順序執行一遍(? 流程圖中只體現了guest作為發起方的執行流程)。

      A2步驟中梯度加隨機噪聲的目的是為了防止己方U泄露,造成安全問題。

      由于同態加密計算只支持整數、浮點數的加法和乘法,所以將1.3中的模型迭代公式中的指數部分表示成泰勒表達式形式:

      可信智能計算服務 TICS

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:分析師眼中的數據中臺
      下一篇:Python編程:threading多線程
      相關文章
      亚洲噜噜噜噜噜影院在线播放| 亚洲精品国产高清嫩草影院 | 亚洲Av无码国产一区二区| 亚洲av无码片在线播放| 亚洲综合伊人久久综合| 国产亚洲精品福利在线无卡一 | 亚洲理论片在线观看| 亚洲精品永久www忘忧草| 久久亚洲精品成人| 久久99国产亚洲精品观看| 久久亚洲精品成人| 亚洲一级二级三级不卡| 亚洲视频免费播放| 91亚洲性爱在线视频| 亚洲av乱码一区二区三区香蕉| 国产成人精品亚洲2020| 久久亚洲精品国产精品婷婷| 亚洲日日做天天做日日谢| 亚洲熟妇AV日韩熟妇在线| 亚洲乱码无人区卡1卡2卡3| 久久亚洲中文字幕无码| 亚洲 小说区 图片区 都市| 午夜亚洲国产成人不卡在线| 亚洲福利在线播放| 中文字幕专区在线亚洲| 亚洲乱码无码永久不卡在线| 久久精品亚洲视频| 亚洲国产综合在线| 亚洲va久久久噜噜噜久久天堂| 久久九九亚洲精品| 亚洲国产成人久久综合碰碰动漫3d| 亚洲自偷自拍另类12p| 91嫩草亚洲精品| 亚洲日本在线电影| 99亚洲男女激情在线观看| 国产成人精品久久亚洲高清不卡 | 亚洲无码在线播放| 中文字幕亚洲色图| 亚洲AV无码成人专区| 亚洲av无码专区首页| 国产a v无码专区亚洲av|