深度學習浪潮下的自然語言處理,百度NeurIPS 2019展現領域新突破
2019 年 12 月8 日-14 日,機器學習領域國際頂級會議 NeurIPS 2019于加拿大溫哥華拉開帷幕。此次大會共吸引了全球1萬余名專家學者共赴盛會。本年度,自然語言處理領域在深度學習浪潮下取得了顯著成就,成為大會重要議題之一。
百度舉辦了自然語言處理專題研討會,百度技術委員會主席、自然語言處理首席科學家吳華博士以及多名研究員和工程師,向現場參會者全面介紹了百度在這一領域的長期積累與全新突破?;诰哂型耆灾髦R產權的飛槳平臺,百度自然語言處理在語義計算、閱讀理解、多輪對話、機器翻譯、開放平臺與數據等方向均取得了突破性進展,并進行了大規模產業化應用。
百度技術委員會主席、自然語言處理首席科學家吳華
預訓練方面,百度提出知識增強的語義表示模型 ERNIE及持續學習語義理解框架 ERNIE 2.0,在共計 16 個中英文任務上超越 BERT、XLNET,取得了 SOTA 的效果。11月,百度發布基于ERNIE的語義理解開發套件。從原理、應用到開源及平臺化,百度在NLP預訓練領域進行了極具價值的創新及實踐。
機器閱讀理解,已成為評估機器語言理解能力的重要方式,也是搜索引擎和對話系統等行業應用中的關鍵技術。百度建設及發布了最大規模的中文閱讀理解數據集DuReader;在泛化方面提出訓練框架D-NET,從多模型融合、多任務學習的角度提升模型的泛化能力;
對于對抗樣本的攻擊,提出了一種面向閱讀理解的對抗訓練方法;提出文本表示和知識表示的融合模型KT-NET,以解決需要外部知識和常識的問題。其中具有高魯棒性和遷移能力的閱讀理解模型在今年MRQA 閱讀理解評測中奪得冠軍。
對話方面,提出了基于深度注意網絡的多輪響應選擇匹配模型 DAM(Deep Attention Matching Network),顯著提高了口語理解能力。 在對話系統框架中,百度一方面提供了可編程的對話管理框架,并內置了多個常用標準對話范式,為在云端開發靈活可變的業務對話邏輯提供了便利。另一方面,提供了需求分發和全局記憶機制,支持多個對話任務的集成與聯動,提高了對話技能的可復用性,降低了新業務的重復開發成本。 百度可定制對話技術依托百度大腦 UNIT 3.0 平臺,支持 5 萬多個對話技能,廣泛應用于行業客戶。
機器翻譯領域,百度相繼提出了多任務學習、多智能體聯合訓練等前沿方法,并在2019年國際權威WMT評測中取得中英翻譯第一。機器同聲傳譯方面百度走在領域前沿,提出了首個具有預測和可控時延的同傳模型,首個語義單元驅動的上下文同傳模型,并研發了業內首個語音到語音的同傳系統,為用戶提供高質量、低時延的同傳體驗。值得一提的是,基于在此領域取得的進步,由百度主導,聯合Google、Facebook、Upenn、清華等海內外頂尖企業及高校共同組織首屆機器同傳研討會,將在本領域頂級會議ACL 2020召開,并將舉辦國際首屆同傳評測,以進一步促進技術發展。此外,百度還將在領域權威會議EMNLP 2020中舉辦機器同傳tutorial,就機器同傳的原理、方法、前沿進展進行講座。
百度自然語言處理領域產出的卓越成果背后所運用的底層框架,是自研的開源深度學習平臺百度飛槳。近兩年來,飛槳圍繞深度學習框架的基本功能、性能、芯片支持的完備性等技術指標進行了一系列的易用性開發和性能迭代,為開發者提供了優于其他深度學習框架的使用體驗。在開發能力方面,飛槳除了支持對常用API的調用之外,還在編程范式上同時支持聲明式編程和命令式編程,兼具很好的靈活性和穩定性,可滿足不同開發者的開發習慣,更易上手。在訓練方面,飛槳平臺突破了超大規模深度學習模型訓練技術,研制了千億特征、萬億參數、數百節點的開源大規模訓練平臺,實現了萬億規模參數深度學習模型的實時更新。在自然語言處理領域,PADDLE-NLP提供了面向6類任務下的30+算法模型,包括上述工作中ERNIE、D-NET等多個國際競賽的冠軍模型。
論文方面,本屆會議計收到6743篇論文投稿,兩年時間翻了一番,再次創下新紀錄。其中1428篇論文入選,入選率僅21.1%。百度共有8篇論文被收錄,覆蓋量化壓縮、對抗訓練等諸多前沿方向。
競賽方面,在NeurIPS 2019: Learn to Move 強化學習賽事中百度再度蟬聯冠軍,并受邀在Deep RL workshop中進行專題報告。本次比賽的難度非常大,在參賽的近 300 支隊伍中,僅有 3 支隊伍完成了最后挑戰。百度基于飛槳的強化學習框架 PARL 不僅成功完成挑戰,還大幅領先第二名(1490 vs 1346)。除了在Best Performance Track獲得了第一,相關技術論文也在該賽事的Machine Learning Track中獲得了Best Paper Reward.
這些無不顯示著百度在NLP領域的技術積累與國際影響力。除了密集的學術交流討論、報告之外,NeurIPS 2019的百度展臺,也吸引了世界各地的參會者。深度學習平臺飛槳獲得廣泛關注,眾多參會者到展臺咨詢使用及合作事宜;百度AI同傳吸引了來自美國、俄羅斯、日本、加拿大等世界各國的參與者們紛紛體驗。
從專題研討、論文分享、競賽報告到多樣的現場系統演示,百度在今年的NeurIPS 2019上深度參與,全面展現了百度的前沿技術進展。以百度為代表的中國AI企業的頻頻身影,已成為國際人工智能學術頂會中的“新常態”。
來源 | 雷鋒網
作者 | camel