當(dāng)前位置:首頁(yè) > 資訊 > 行業(yè)資訊 >
目前學(xué)界已關(guān)注到深度學(xué)習(xí)存在的問(wèn)題,比如 Ali Rahimi 就在 2017 年 NIPS 大會(huì)上提到 Deep learning 是 “alchemy”(煉金術(shù))。與此同時(shí), Ali Rahimi 也表示 Being alchemy is certainly not a shame,而 not wanting to work on advancing to chemistry is a shame,意思是說(shuō)只有提供系統(tǒng)的理論指導(dǎo),該領(lǐng)域才會(huì)從純實(shí)驗(yàn)學(xué)科變成有理論體系的學(xué)科。我和團(tuán)隊(duì)試圖從應(yīng)用/計(jì)算數(shù)學(xué)的角度去理解深度學(xué)習(xí),以期能為網(wǎng)絡(luò)構(gòu)架設(shè)計(jì)、相關(guān)研究提供一些新的指導(dǎo)思想。第二位主講人是來(lái)自北京大學(xué)的林偉研究員,他的報(bào)告題目是《破解機(jī)器學(xué)習(xí)中的中的維數(shù)災(zāi)難:從可辨識(shí)性談起》。
一般來(lái)說(shuō),數(shù)學(xué)家都會(huì)通過(guò)嚴(yán)謹(jǐn)?shù)睦碚摲治鋈プC明猜想,而我們采取了另一條思路,先尋找深度學(xué)習(xí)與數(shù)學(xué)概念的對(duì)應(yīng)關(guān)系,再據(jù)此進(jìn)行分析。比如我們可以把深層網(wǎng)絡(luò)理解為微分方程,亦或者是微分方程的一種離散形式。建立起這個(gè)聯(lián)系后,我們就會(huì)清楚該從數(shù)學(xué)的哪個(gè)領(lǐng)域入手去理解深度學(xué)習(xí)。
DNN 與數(shù)值 ODE 之間是一個(gè)什么樣的關(guān)系呢?如果以數(shù)學(xué)的形式寫(xiě)出來(lái),就會(huì)認(rèn)為這是一個(gè)動(dòng)力系統(tǒng),然而這個(gè)很難被分析。有名的殘差網(wǎng)絡(luò)從數(shù)學(xué)形式上來(lái)看就比較好理解,其實(shí)就是連續(xù)的 ODE,對(duì)時(shí)間做了前項(xiàng)歐拉的離散,只不過(guò)在設(shè)計(jì)網(wǎng)絡(luò)時(shí)把 Δt 設(shè)成了 1。
這是很有意思的觀察,但人們也在懷疑,殘差網(wǎng)絡(luò)核與動(dòng)力系統(tǒng)的聯(lián)系是否只是特例?更重要的是,假如 numerical ODE 和網(wǎng)絡(luò)構(gòu)架之間建立了聯(lián)系,我們是否能從 numerical ODE 這個(gè)相對(duì)成熟的研究領(lǐng)域去反推出有用的構(gòu)架?
后來(lái)我們發(fā)現(xiàn),除了殘差網(wǎng)絡(luò),其他網(wǎng)絡(luò)如 pulling Net 對(duì)應(yīng)的實(shí)際上也是一個(gè)解了的反向歐拉,而反向歐拉需要我們對(duì)非常大的非線性方程組的逆進(jìn)行求解,做不了就得利用多項(xiàng)式的逼近。于是我們用 numerical ODE 嘗試設(shè)計(jì)一些新的網(wǎng)絡(luò)構(gòu)架,主要針對(duì) residue block,至于具體里面的 block 是什么,并不做太大修改。
除了確定性內(nèi)容,深度學(xué)習(xí)的訓(xùn)練還會(huì)面臨各種各樣的隨機(jī)擾動(dòng),按理來(lái)說(shuō)其對(duì)應(yīng)的就是隨機(jī)微分方程。我們發(fā)現(xiàn),不管是隨機(jī)策略還是網(wǎng)絡(luò)自帶的隨機(jī)性質(zhì),訓(xùn)練網(wǎng)絡(luò)實(shí)際上是一個(gè)求解隨機(jī)控制的問(wèn)題,因此可以從隨機(jī)控制的角度來(lái)看待帶有隨機(jī)訓(xùn)練策略的深度學(xué)習(xí)訓(xùn)練。我們做了簡(jiǎn)單對(duì)比,發(fā)現(xiàn)在不減少精度情況下,可以把深度減少90%,100層就能達(dá)到1200層的效果。
此外,隨著采集數(shù)據(jù)的手段越來(lái)越先進(jìn),如今存在大量的三維甚至四維數(shù)據(jù),我們是否能將 PDE 與深度學(xué)習(xí)結(jié)合,形成提取規(guī)律的高效工具?我們對(duì)此也做了初步嘗試,核心思想是對(duì)卷積做部分約束,確保學(xué)習(xí)方程之余,還能保證模型的可預(yù)測(cè)性。
過(guò)去用演化預(yù)熱方程做圖像去噪,一旦演化的時(shí)間過(guò)長(zhǎng),圖像的細(xì)節(jié)也會(huì)隨之丟失,也就是說(shuō),停止的時(shí)機(jī)是個(gè)超參數(shù),且與噪聲的水平有關(guān)。不同的圖像,不同的噪聲水平,超參數(shù)的最佳停止時(shí)間是不一樣的,我們除了對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,也將動(dòng)力系統(tǒng)的停止時(shí)間納入到優(yōu)化范疇內(nèi),即是網(wǎng)絡(luò)深度可以根據(jù)當(dāng)前數(shù)據(jù)進(jìn)行自動(dòng)調(diào)節(jié),最終結(jié)果的自動(dòng)化程度要比以前好很多。
下一步,我們將借助智源的支持去做更多理論分析,比如將數(shù)值微分方程或者是反問(wèn)題里的其他方法視作深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)架,接著分析這些網(wǎng)絡(luò)構(gòu)架的泛化水平、壓縮感知等,最終設(shè)計(jì)出更加緊致的網(wǎng)絡(luò)。
所謂高維統(tǒng)計(jì),即是研究所謂的高維數(shù)據(jù)或者高維模型的統(tǒng)計(jì)學(xué)。以數(shù)據(jù)為例,維數(shù)指的是變量的個(gè)數(shù),比如同時(shí)分析幾千個(gè)甚至是更多數(shù)據(jù),那么維數(shù)就會(huì)非常高。放在模型維數(shù)語(yǔ)境來(lái)說(shuō),,高維就是俗稱(chēng)的“過(guò)參數(shù)化”。第三位主講人是來(lái)自北京大學(xué)的邵嗣烘副教授,他的報(bào)告題目是《面向智能的數(shù)學(xué)》。
怎么從統(tǒng)計(jì)學(xué)的角度給人工智能技術(shù)建立一個(gè)能提高可解釋性的理論學(xué)習(xí)框架呢?我認(rèn)為目前存在兩套工具,一套基于隨機(jī)矩陣?yán)碚摚覀兛梢詮倪@種漸進(jìn)框架下推導(dǎo)出許多與經(jīng)典統(tǒng)計(jì)學(xué)中 N 趨于無(wú)窮不同的漸進(jìn)結(jié)果;另一套是我所做的集中不等式,簡(jiǎn)單來(lái)說(shuō),許多結(jié)果都是非漸進(jìn)的,我們可以據(jù)此得出推論,令 P 隨著 N 具有某種關(guān)系,借此得到一些允許 P 遠(yuǎn)大于 n 的漸進(jìn)結(jié)果。
什么是可辨識(shí)性?如果數(shù)據(jù)分布的兩個(gè)參數(shù) θ1 和 θ2 對(duì)應(yīng)的數(shù)據(jù)分布是一樣的,我們就可以借此推導(dǎo)出是同一個(gè)參數(shù)。這個(gè)很關(guān)鍵,如果沒(méi)法確定真實(shí)參數(shù)是什么,一旦用算法做優(yōu)化找參數(shù),結(jié)果將極其不穩(wěn)定。不可辨識(shí)的模型有哪些缺點(diǎn)?一個(gè)是解釋性差;一個(gè)是泛化能力弱。我們可以通過(guò)稀疏和低秩來(lái)保證可辨識(shí)性。需要強(qiáng)調(diào)的是,因果推斷理論在很多情況下是不可辨識(shí)的,但我們可以為之做出定界,如果上界與下界足夠小,那么還是有作用的。
如果可辨識(shí)性無(wú)法保證,我們是不是非要達(dá)到可辨識(shí)性的目標(biāo)?不可辨識(shí)性所導(dǎo)致的誤差,能否反映在我們的結(jié)果里?我們的工作給出了答案:前者是no,后者是yes。如果是做生物學(xué)習(xí),那么問(wèn)題一的答案是最好有,但不是非要不可,因?yàn)榇_實(shí)存在過(guò)稀疏的網(wǎng)路性能更好的例子,但不絕對(duì);至于第二個(gè)問(wèn)題目前還沒(méi)有定論。
神經(jīng)網(wǎng)絡(luò)是一種高維或者過(guò)參數(shù)化的模型,從統(tǒng)計(jì)學(xué)來(lái)說(shuō),我們可以如何進(jìn)行修改?第一、擬合目標(biāo)函數(shù);二、分析目標(biāo)的真實(shí)函數(shù)到底是在什么類(lèi)別。有了這個(gè)東西以后,我們將能得到一些解,比如說(shuō)兩種稀疏。
我們現(xiàn)在造很多機(jī)器,總想弄清楚人類(lèi)從哪里來(lái),要到哪兒去,以解答所謂的終極問(wèn)題。那么問(wèn)題就來(lái)了,我們是怎么意識(shí)到我們是我們的呢?這就涉及到人腦是怎么形成意識(shí)的問(wèn)題。第四位主講人是來(lái)自北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所的王涵,他的報(bào)告題目是《Deep Learning for Multiscale Molecular Modeling》。
所謂的人工智能,其根本是通過(guò)人類(lèi)能理解的方式去模仿智能或者說(shuō)探索智能的機(jī)理。人的大腦是一個(gè)由 1000 億的經(jīng)元構(gòu)成的腦神經(jīng)網(wǎng)絡(luò),無(wú)論好的壞的想法都來(lái)自這里,這隱含著兩個(gè)基本事實(shí):一、構(gòu)成網(wǎng)絡(luò)的物質(zhì)基礎(chǔ)與自然界中的原子沒(méi)有區(qū)別,所以我們得用量子力學(xué)描述它;二、要基于量子力學(xué)的行為去描述神經(jīng)元突觸量子力學(xué)的行為,這對(duì)于理解意識(shí)的產(chǎn)生非常重要。
這么重要的課題,為何一直都沒(méi)太大的進(jìn)展呢?其一,直到去年我們才成功掌握果蠅的全腦產(chǎn)高清圖像,也是從這個(gè)時(shí)候開(kāi)始我們才可以看到所有神經(jīng)元的空間位置,不過(guò)這個(gè)活體已經(jīng)失去生命力了。其二,對(duì)量子力學(xué)行為進(jìn)行測(cè)量,從物理原理的層面上來(lái)說(shuō)其實(shí)特別困難。具體難在什么地方呢?海森堡測(cè)不準(zhǔn)關(guān)系告訴我們,微觀世界的粒子除了是粒子以外,還向著光。
為此,我們利用計(jì)算機(jī)算解通過(guò)經(jīng)典的量子力學(xué)方程給解出來(lái),使用了維格納函數(shù)。維格納函數(shù)是目前唯一擁有嚴(yán)格數(shù)學(xué)理論知識(shí)、可以從量子世界過(guò)渡到經(jīng)典世界的數(shù)學(xué)表述形式,利用維格納函數(shù)做模擬,可以為實(shí)驗(yàn)科學(xué)家提供觀測(cè)和對(duì)比的數(shù)據(jù)結(jié)果。一旦要在實(shí)際的腦神經(jīng)網(wǎng)絡(luò)中去跑動(dòng)力學(xué),肯定會(huì)遇到計(jì)算規(guī)模的問(wèn)題,因此我們采取了隨機(jī)算法模式,通過(guò)數(shù)學(xué)的等價(jià)推理,發(fā)現(xiàn)它等價(jià)于一個(gè)更新方程,而方程本身內(nèi)在存在一個(gè)隨機(jī)解釋?zhuān)词撬^的分枝隨機(jī)游走,基于這個(gè)過(guò)程將可以進(jìn)行進(jìn)一步模擬。
我們來(lái)看一下果蠅的大腦數(shù)據(jù)實(shí)驗(yàn),它的腦神經(jīng)元是由十萬(wàn)個(gè)神經(jīng)突觸構(gòu)成的腦神經(jīng)網(wǎng),而人腦則是一千億。從數(shù)據(jù)模擬的角度來(lái)說(shuō),規(guī)模差距太大,無(wú)論對(duì)算法設(shè)計(jì)還是數(shù)學(xué)理論而言都是極大的挑戰(zhàn)。因此,我們必須研究?jī)?yōu)化算法,如何在不損害精度的情況下,在誤差允許范圍之內(nèi)對(duì)網(wǎng)絡(luò)做分解。
我們?cè)谶@方面做了很長(zhǎng)時(shí)間的探索,試圖去探討圖上的數(shù)學(xué),結(jié)果發(fā)現(xiàn)很多問(wèn)題不是我們所想象的那樣。比如圖上討論某一類(lèi)問(wèn)題,你將發(fā)現(xiàn)其特征函數(shù)或者特征向量非常多,而且可以把它進(jìn)行局域化。換句話說(shuō),給你一個(gè)網(wǎng)絡(luò),再給你一把剪刀進(jìn)行裁剪,我們既可以剪最多的邊,也可以剪最小的邊,但我們最終希望,剪下來(lái)的兩塊是比較勻稱(chēng)的。現(xiàn)實(shí)的數(shù)學(xué)理論會(huì)告訴你,不可能在有生之年找到最佳方案。
既然如此,我們?nèi)绾我宰羁斓拇鷥r(jià)拿到次優(yōu)解?我們的思路是把大圖剪成小圖,再用小圖拿來(lái)跑維格納量子物理學(xué),從中了解時(shí)間之間是否存在量子關(guān)聯(lián),再把數(shù)據(jù)開(kāi)放做實(shí)驗(yàn)。我們想辦法找到連續(xù)優(yōu)化問(wèn)題與之進(jìn)行對(duì)應(yīng),回到數(shù)學(xué)分析層面其實(shí)很簡(jiǎn)單,一個(gè)序列的極限是唯一的,但是具體產(chǎn)生同樣極限的序列有多少種,以及具體是哪個(gè)序列,則取決于額外約束。
我們希望能把這套理論走通,以便產(chǎn)生的優(yōu)化問(wèn)題能有解析表達(dá)形式。于是,我們做了所謂的Lovasz擴(kuò)展,隨便給個(gè)組合優(yōu)化問(wèn)題,我們都能找到對(duì)應(yīng)的聯(lián)系。我們據(jù)此設(shè)計(jì)了一個(gè)簡(jiǎn)單的算法叫表達(dá)式迭代,這些問(wèn)題雖然不能知道最優(yōu)值,那我們就把文獻(xiàn)里看到的最佳值做一個(gè)解,由此找到這些算法的相對(duì)誤差,然后再簡(jiǎn)單的跑一下,這樣最終結(jié)果與最佳值的誤差能夠控制在1%以內(nèi),比原來(lái)的快了不只一點(diǎn)點(diǎn)。
這個(gè)方向我們已經(jīng)做了很好的積累,其中包括組合問(wèn)題,如何解兩個(gè)關(guān)聯(lián)等。這個(gè)方向如果要繼續(xù)往前走,需要跨好幾個(gè)領(lǐng)域,具體究竟需要用到哪些數(shù)學(xué)工具或者數(shù)學(xué)理論,目前還不是很清楚,目前只能做各種嘗試。
總而言之,這些事情一下把我們拉回了起點(diǎn),我們可能真的需要從根子上或者從數(shù)學(xué)理論上去理解,把連續(xù)的東西或者離散的東西放在統(tǒng)一的框架里進(jìn)行討論。過(guò)去,我們做的很多事情都太局限了,而現(xiàn)在你再也躲不開(kāi),從這個(gè)角度而言,這件事情才剛剛開(kāi)始。
假設(shè)這個(gè)世界由原子構(gòu)成,每個(gè)原子我們都看成是一個(gè)質(zhì)點(diǎn),這個(gè)位置是 Ra 。根據(jù)中學(xué)學(xué)過(guò)的牛頓第二運(yùn)動(dòng)定律,只要給定初值就能把這個(gè)方程解出來(lái),這樣我們就能知道所有原子在任意時(shí)刻的坐標(biāo),這是分子模擬在干的一個(gè)事情。如果大家看過(guò)三體,就會(huì)馬上意識(shí)到要精確地解方程,只能對(duì)兩原子體系求解,然而任意一個(gè)多原子體系,你都無(wú)法在無(wú)窮長(zhǎng)的時(shí)間內(nèi)把它給精確的解出來(lái),由此初始的初值誤差就會(huì)變得非常大,造成你的解變得不靠譜。第五位主講人是來(lái)自北京大學(xué)的張志華教授,他的報(bào)告題目是《數(shù)學(xué)工程——理解機(jī)器學(xué)習(xí)的一種角度》。
然而分子模擬想獲得的結(jié)果并不是原子運(yùn)動(dòng)的軌道,而是原子運(yùn)動(dòng)的軌道在無(wú)窮長(zhǎng)時(shí)間內(nèi)對(duì)相空間的一個(gè)分布,這樣就意味著數(shù)值誤差對(duì)于這個(gè)分布的影響實(shí)際上是可以被控制的。換句話說(shuō),如果離散做得足夠好,我們獲得的平臺(tái)分布就能與物理中想要的分布保持一致。分子建模試圖把能量函數(shù)的 E 給寫(xiě)出來(lái),而多尺度分子建模就是對(duì)原子坐標(biāo)做一定的粗粒化,然后再去寫(xiě)出等價(jià)的形式。
多維函數(shù)在傳統(tǒng)數(shù)學(xué)的處理上還是比較困難的,深度學(xué)習(xí)正好給我們提供了非常有利的工具。我們的目標(biāo)就是在保證第一性原理計(jì)算精度的前提下,能做到計(jì)算開(kāi)銷(xiāo),并與經(jīng)典力場(chǎng)盡可能進(jìn)行合并。
然后對(duì)稱(chēng)性開(kāi)始成了問(wèn)題。舉個(gè)例子,比如手機(jī)是一堆原子,然后這個(gè)手機(jī)在空間中平移一下,所有原子的坐標(biāo)一起加一個(gè)向量,還能保證這個(gè)手機(jī)的能量顯示不變,即使是把手機(jī)轉(zhuǎn)一下,能量也同樣不變。 對(duì)稱(chēng)性對(duì)于一個(gè)生物學(xué)模型或者神經(jīng)網(wǎng)絡(luò)來(lái)講無(wú)法被保證,任意的坐標(biāo)平移或交換都可能導(dǎo)致網(wǎng)絡(luò)的輸出不一樣。
保持模型的對(duì)稱(chēng)性有兩種做法:第一種是在分子體系里固定一個(gè)隨體的標(biāo)件,這樣就能通過(guò)排序把交換的對(duì)稱(chēng)性給穩(wěn)住,這個(gè)做法的優(yōu)點(diǎn)是表示能力強(qiáng),缺點(diǎn)是會(huì)給能量函數(shù)造成一定的不連續(xù)性。另一種則基于兩個(gè)觀察,第一個(gè)觀察是以兩個(gè)向量做內(nèi)基,做完內(nèi)基以后是旋轉(zhuǎn)不變的,第二個(gè)觀察是對(duì) i 原子的坐標(biāo)的近鄰求和,求完和以后交換就不變。基于這兩點(diǎn),我們?cè)O(shè)計(jì)了所謂的描述子,然后我們把描述子放到神經(jīng)網(wǎng)絡(luò)前面,再把輸出接到神經(jīng)網(wǎng)絡(luò)里面,以保持整個(gè)模型的對(duì)稱(chēng)性。
我們的深度學(xué)習(xí)模型發(fā)表后,別人拿去解決了一些實(shí)際問(wèn)題。比如一位英國(guó)皇家科學(xué)院院士用來(lái)研究硅,他說(shuō)早先產(chǎn)生的力場(chǎng)很難把硅的固相跟硬相同時(shí)描述好,但我們深度學(xué)習(xí)的模型可以,他用來(lái)做了一個(gè)硅的熔化,取得了很好的效果。另一個(gè)是北師大的教授,他拿來(lái)做激發(fā)態(tài)的反應(yīng)動(dòng)力學(xué)。在過(guò)去傳統(tǒng)的建模里,激發(fā)態(tài)的動(dòng)力學(xué)的兩個(gè)勢(shì)能面交接錐的精度總是做不好,是該領(lǐng)域的一個(gè)難題,我們的深度學(xué)習(xí)模型卻很好解決了這個(gè)問(wèn)題。
前面講的都是深度學(xué)習(xí)對(duì)原子間相互作用的表示,實(shí)際上卻存在一個(gè)很?chē)?yán)重的問(wèn)題——數(shù)據(jù)從哪兒來(lái)。我們因此提出主動(dòng)學(xué)習(xí)策略,先訓(xùn)練出一個(gè)可進(jìn)行分子動(dòng)力學(xué)的模型,然后再通過(guò)分子動(dòng)力學(xué)去構(gòu)型更多分子,簡(jiǎn)單來(lái)說(shuō),就是每次改進(jìn)完模型后,立馬就回產(chǎn)生新的構(gòu)型,新的構(gòu)型經(jīng)過(guò)測(cè)試,我們把誤差大的挑出來(lái)重新打標(biāo)簽,進(jìn)而豐富數(shù)據(jù)庫(kù)。
最后,在表示高維空間函數(shù)深度學(xué)習(xí)的技術(shù)方面使用主動(dòng)學(xué)習(xí),關(guān)鍵之處在于誤差估計(jì),怎么樣能夠把誤差通過(guò)第一性原理計(jì)算給估計(jì)出來(lái),將會(huì)是設(shè)計(jì)的核心。
機(jī)器學(xué)習(xí)與人工智能從本質(zhì)上來(lái)講還是很不一樣的,它并不是模擬人的思維和行為,而是通過(guò)經(jīng)驗(yàn)和交互的方式去改善性能。實(shí)際上它是研究算法的學(xué)科,這個(gè)算法基于數(shù)據(jù)型算法,然后再反饋到數(shù)據(jù)里去。可以按這個(gè)思路理解機(jī)器學(xué)習(xí):我擁有一個(gè)數(shù)據(jù),如何把它作為一個(gè)表示,或者獲得一個(gè)特征,再基于這個(gè)表示特征達(dá)到預(yù)測(cè)和決策的目的。
當(dāng)中較有代表性的,毫無(wú)疑問(wèn)是基于規(guī)則的學(xué)習(xí),該方法的重點(diǎn)是特征工程,這也意味著,需要對(duì)領(lǐng)域非常了解,才有可能做成這個(gè)東西。這個(gè)事情實(shí)際存在一些問(wèn)題,比如一旦做的是個(gè)深層次的推理,就會(huì)導(dǎo)致維數(shù)災(zāi)難。為了解決這問(wèn)題,一個(gè)簡(jiǎn)單的思路是把原來(lái)基于規(guī)則的方式,環(huán)城一個(gè)非線性的模型,然后反過(guò)來(lái)弱化數(shù)據(jù)到表示的過(guò)程,基于這樣的數(shù)論發(fā)展出了統(tǒng)計(jì)機(jī)器學(xué)習(xí)。
統(tǒng)計(jì)方法發(fā)展到一定的時(shí)候,大家認(rèn)為數(shù)據(jù)到表示這件事情依然繞不過(guò)去,方法再?gòu)?qiáng)大,數(shù)據(jù)到表示如果不行還是會(huì)帶來(lái)很多麻煩。于是又出現(xiàn)一個(gè)簡(jiǎn)單的思路,通過(guò)學(xué)習(xí)的方式來(lái)求解表示問(wèn)題,也就是通過(guò)機(jī)器學(xué)習(xí)的方法來(lái)求解表示問(wèn)題。
實(shí)際上,這個(gè)時(shí)期的深度學(xué)習(xí)目的還不純粹是為了表示,關(guān)鍵還是為了非線性的擬合。這就導(dǎo)致至今還沒(méi)找到有效表示網(wǎng)絡(luò)的自然語(yǔ)言處理領(lǐng)域,發(fā)展上沒(méi)圖像處理領(lǐng)域那么快。深度學(xué)習(xí)發(fā)展到現(xiàn)在,面臨的一個(gè)問(wèn)題是無(wú)監(jiān)督問(wèn)題遠(yuǎn)遠(yuǎn)比有監(jiān)督問(wèn)題要多,且更復(fù)雜。隨后就出現(xiàn)一個(gè)思路,把無(wú)監(jiān)督問(wèn)題形成與有監(jiān)督類(lèi)似的學(xué)習(xí)過(guò)程。
換句話說(shuō),如果有一個(gè)優(yōu)化過(guò)程,是需要用機(jī)器學(xué)習(xí)方法來(lái)解決的話,統(tǒng)計(jì)學(xué)里就會(huì)假設(shè)這個(gè)X要生成它。那么 X 如果是連續(xù)的,我可以假設(shè)這個(gè) X 是高斯;如果 X 的高斯假設(shè)很強(qiáng),我們可以說(shuō) X 是一個(gè)高斯混合體。這個(gè)時(shí)候大家發(fā)現(xiàn), X 是一個(gè)抽象的數(shù)學(xué)意識(shí),并沒(méi)有具體的物理意義,那么自然神經(jīng)網(wǎng)絡(luò)技術(shù)能不能像圖像進(jìn)行一樣去生生成語(yǔ)言,而不是對(duì)數(shù)學(xué)意義上的 X 去生成。這時(shí)候就發(fā)展出類(lèi)似生成對(duì)抗網(wǎng)絡(luò)的方法來(lái)解決這樣的問(wèn)題,它的框架實(shí)際上就是如何形成一個(gè)優(yōu)化問(wèn)題。
近期流行還有強(qiáng)化學(xué)習(xí),它利用規(guī)則與環(huán)境交互形成一個(gè)學(xué)習(xí)優(yōu)化問(wèn)題。強(qiáng)化學(xué)習(xí)比有監(jiān)督學(xué)習(xí)具備一些先驗(yàn),再利用這些先驗(yàn)知識(shí)形成一個(gè)優(yōu)化目的,這是強(qiáng)化學(xué)習(xí)目前的發(fā)展情況。深度學(xué)習(xí)是在 2006 年被提出來(lái)的,直到 2012 年才落地,實(shí)際上中間五六年主流的機(jī)器學(xué)習(xí)家都在其中徘徊,很多人都沒(méi)真正去跟進(jìn),換句話說(shuō),這可能是一個(gè)機(jī)遇期,但是不是一個(gè)大的機(jī)遇期,就不太好說(shuō)了。
我們知道機(jī)器學(xué)習(xí)存在三個(gè)問(wèn)題:有監(jiān)督、無(wú)監(jiān)督和強(qiáng)化學(xué)習(xí)。那么機(jī)器學(xué)習(xí)跟統(tǒng)計(jì)的關(guān)系是什么呢?原來(lái)我們認(rèn)為機(jī)器學(xué)習(xí)是統(tǒng)計(jì)的分支,現(xiàn)在我們認(rèn)為機(jī)器學(xué)習(xí)是現(xiàn)代統(tǒng)計(jì)學(xué),但是它跟統(tǒng)計(jì)還有微妙的關(guān)系,機(jī)器學(xué)習(xí)是分類(lèi)問(wèn)題,而統(tǒng)計(jì)是回歸問(wèn)題,但是從回歸上來(lái)講也沒(méi)有太本質(zhì)的區(qū)別。
此外,機(jī)器學(xué)習(xí)往往會(huì)形成優(yōu)化問(wèn)題,模型你弄得再好,但是新的數(shù)據(jù)不行,機(jī)器學(xué)習(xí)就沒(méi)什么用。從這個(gè)角度來(lái)理解,就是學(xué)習(xí)完了以后,還要關(guān)注泛化的問(wèn)題。現(xiàn)代的機(jī)器學(xué)習(xí)的成功之處在于表示,深度學(xué)習(xí)不是單純的一個(gè)非線性模型,而是一個(gè)非線性的表示。我們想要用機(jī)器學(xué)習(xí)做預(yù)測(cè),而預(yù)測(cè)是通過(guò)計(jì)算得來(lái)的,所以說(shuō)一個(gè)好的表示要適合最終的預(yù)測(cè),而且這個(gè)表示也要適合我的計(jì)算。
深度學(xué)習(xí)目前也遇到很多挑戰(zhàn),第一個(gè)是對(duì)于大數(shù)據(jù)的要求,往往會(huì)帶來(lái)過(guò)參數(shù)的問(wèn)題。另外,我做的這個(gè)表述是基于多層表述,所以問(wèn)題是高度的非凸化,這是它的基本問(wèn)題。機(jī)器學(xué)習(xí)要關(guān)注的重點(diǎn)問(wèn)題有四個(gè):可泛化性、可計(jì)算性、穩(wěn)定性、可解釋性。現(xiàn)在大家都強(qiáng)調(diào)可解釋性,但是重點(diǎn)應(yīng)該是穩(wěn)定性和泛化性這個(gè)層面。多級(jí)技術(shù)、正則化和規(guī)范技術(shù)、集成+平均化的技術(shù)、自適應(yīng)方法都可以在客觀上幫助我們解決這些問(wèn)題。
最后我總結(jié)一下,為什么我要提出數(shù)學(xué)工程的概念。數(shù)學(xué)里的概率論、隨機(jī)分析這些東西是可以來(lái)研究AI的數(shù)學(xué)機(jī)理。就算有了模型,最后我們都要通過(guò)計(jì)算來(lái)表示這個(gè)結(jié)果。這個(gè)計(jì)算一共可分為三個(gè)方面,第一個(gè)方面是數(shù)據(jù)分析,求解連續(xù)問(wèn)題的算法,另外是離散算法,這個(gè)可以看作是求解離散結(jié)構(gòu)的算法,還有大規(guī)模的集散的構(gòu)架問(wèn)題。這些我們可以認(rèn)為是個(gè)工程,這些東西可以通過(guò)計(jì)算的工程思路把數(shù)據(jù)問(wèn)題給實(shí)現(xiàn)出來(lái)。
應(yīng)用數(shù)學(xué)最重要的魅力在于提出問(wèn)題的思路和途徑,而不僅僅來(lái)證明定理,工程即是技術(shù),也是一種藝術(shù),它是算法的必要補(bǔ)充。沒(méi)有計(jì)算圖、自動(dòng)微分這樣的工程工具,深度學(xué)習(xí)根本不可能得到推廣。深度學(xué)習(xí)里的很多技巧都是工程的,但是它也是數(shù)學(xué)的東西包含在內(nèi)。如果強(qiáng)化學(xué)習(xí)能夠獲得巨大成功,那么我相信數(shù)學(xué)與工程的發(fā)展也將隨之形成一個(gè)巔峰。
來(lái)源 | 雷鋒網(wǎng)
作者 | 黃善清