學界 | 田淵棟等人論文:何時卷積濾波器容易學習?

字体 -

深度卷積神經網絡(CNN)已經在很多應用中展現出了人工智能的最佳水平,如計算機視覺、自然語言處理和圍棋等復雜遊戲。盡管目標函數具有非常高的非凸性,簡單的一階算法(如隨機梯度下降及其變體)通常可以成功地訓練這樣的網絡。另一方面,卷積神經網絡的成功從優化角度來考慮仍然是難以捉摸的。

當輸入分布不受約束時,已有的結果大多數為負,如 3 節點神經網絡學習的硬度(Blum & Rivest,1989)或非重疊卷積濾波器(Brutzkus & Globerson,2017)。最近,Shamir 等人表明學習單層全連接神經網絡對於某些特定的輸入分布來說是非常困難的。
這些負面結果告訴我們,為了解釋 SGD 學習神經網絡的成功,還需要對於輸入分布做出更強假設。最近的一係列研究(Tian,2017;Brutzkus & Globerson,2017;Li & Yuan,2017;Soltanolkotabi,2017;Zhong 等人,2017)假設輸入分布為標準高斯 N(0,I),並展示了(隨機)梯度下降能夠在多項式時間內得到具有 ReLU 激活的神經網絡。

圖 1.(a)研究人員正在考慮的網絡架構。給定輸入 X,我們提取它的補丁 {Zi} 並將其傳遞至共享權重向量 w。隨後輸出會被發送到 ReLU 並加和產生最終的標簽(以及評估)。(b)-(c)上,我們提出了兩個收斂條件。我們希望數據與(b)高度相關,(c)更加集中於真值向量 w*。
這些分析的一個主要問題在於它們依賴於高斯分布的專門分析,因此不能推廣到非高斯情況下(真實世界的分布情況)。對於一般輸入的分布而言,我們需要新的技術。
在卡耐基梅隆大學、南加州大學和 Facebook 共同發表的這篇論文中,研究人員考慮了一種相對簡單的架構:一個卷積層,隨後跟著一個 ReLU 激活參數,然後是平均池化。形式上,以 x ∈ Rd 作為輸入示例。例如,一張圖片,我們從 x 中生成 k 個補丁,每個大小均為 p: Z ∈ R p×k,其中第 i 列是已知函數 Zi = Zi(x) 生成的第 i 個補丁。對於尺寸為 2,步幅 1 的濾波器,Zi(x) 是第 i 個和第 (i + 1) 個像素。因為對於卷積濾波器,我們只需要關註補丁而不是輸入,在下面的定義和定理中,我們將 Z 作為輸入,並將 Z 作為 Z 的分布:(σ(x) = max(x, 0) 是 ReLU 激活函數)。

如圖 1(a)所示,很多計算機視覺研究都使用這樣的結構作為網絡的第一層 [Lin et al., 2013, Milletari et al., 2016]。研究員僅關註可實現的案例,其中訓練數據由式(1)以及一些 Z 輸入分布的未知參量 w?生成,比如 `2 loss ` (w, Z) = 1/2 (f(w, Z) ? f(w?, Z))2,通過(隨機)梯度下降方法學習,即:
其中ηt 是訓練步長,在訓練過程中可能發生變化,g(wt) 是一個隨機函數,它的期望值等於 population gradient E [g(w)] = EZ~Z [?` (w, Z)]。研究員的訓練目標是了解假如 w 經過(隨機)梯度下降優化然後 w → w?的情況下,發生了什麽。

通過這樣的設定,主要成果如下:
濾波器的可學習性:研究員展示了如果輸入補丁之間高度相關(Section 3),即θ (Zi , Zj ) ≤ ρ(一些很小的ρ值,且ρ>0),那麽隨機初始化的梯度下降和隨機梯度下降將在多項式時間內恢復濾波器。此外,強相互作用表明了更快的收斂速度。研究員在 [Tian, 2017] 公開聲稱,這是對非高斯分布輸入的卷積濾波器(甚至是最簡單的單層單神經元網絡)的基於梯度的算法的第一恢復保證。

研究員正式提出了輸入分布的平滑度和濾波器權重恢復的收斂速度之間的聯係,其中平滑度的定義是活化區域的二次矩的最大和最小的本征值的比(Section 2)。研究表明,輸入分布越平滑,收斂速度越快,其中高斯分布作為一個特例,收斂到了最緊致的範圍。這個理論結果同樣證實了由 [He et al., 2016, Szegedy et al., 2017] 提出的步長(隨時間)可變的兩態學習速率策略。

(a)單層單個神經元模型對不同平滑度的輸入分布的隨機梯度下降的收斂率。較大的σ更平滑;(b)隨機梯度下降的收斂率用於學習不同補丁親近度的輸入分布上的卷積濾波器。較大的σ2 更平滑。
論文鏈接:https://arxiv.org/abs/1709.06129

摘要:我們分析了用於學習帶有 ReLU 激活函數的卷積濾波器的(隨機)梯度下降算法的收斂行為,整個過程沒有依賴輸出分布的任何特定形式,我們的論證也只用到了 ReLU 的定義,這與先前受限於標準高斯分布的工作相反。我們表明帶有隨機初始化的(隨機)梯度下降能夠學習多項式時間中的卷積濾波器,收斂速度取決於輸入分布的平滑度和補丁的接近度。據我們所知,這是對非高斯分布輸入的卷積濾波器的基於梯度的算法的第一恢復保證。我們的理論也證明了深度神經網絡中兩階段的學習率策略。盡管我們聚焦於理論,但也展現了論證理論發現的實驗。如果你是運動愛好者,同時佩戴 Android Wear 和 Fitness Tracker,著名運動追蹤產品生產商> 智能手錶就可以幫你減輕負擔。

原文地址:http://www.sohu.com/a/193518009_465975

分享博文至:

    目前没有评论

发表评论