日韩专区第一页-日韩中文字幕在线亚洲一区-日韩中文字幕在线观看视频-日韩中文字幕在线播放-日韩中文字幕一区二区不卡-日韩中文字幕一区

OpenI 啟智社區

啟智社區,確實給力

當前位置:首頁 > 啟智講堂 > 開發者大會 >

黃鐵軍《堅持開源開放原則,筑成新一代人工智能》

演講者:黃鐵軍,OpenI技術委員會主席

演講速記(根據現場演講整理,未經演講者確認)

    各位早上好!我稍微系統地給各位匯報一下OpenI的背景和進展的情況。
    中國的人工智能發展是有國家的體系化的一個推進的安排,具體來說就是2017年7月20號發布的《新一代人工智能發展規劃》,這是國務院發的一個文件。在這個文件里面,大家關注比較多的就是中國在2020年人工智能要達到與世界先進水平同步,2025年要達到世界領先水平,2030年總體達到世界的領先水平。但是怎么實現這樣一個目標,媒體上報道的并不多。事實上達到這個目標的路線,在規劃里面也是有的,因為這個規劃文件很長,今天我不展開講這個規劃,這里面講了中國推進人工智能的四條原則:科技引領、系統布局、市場主導、開源開放。這16個字告訴了我們怎么實現剛才這樣一些戰略目標。具體今天說到其中一個原則,就是開源開放。中國的人工智能發展,并不像有人想象的,我們要組織多少團隊,在一些方向上領先,這也是一種路線,但是這是不全面的,如果說全面的話,開源開放的原則下,大家一起來共同建設一個體系化的AI技術體系,這才是我們要達到目標的一個更重要的布局。所以今天我們要落實的就是這樣一個原則,按照這樣的原則的基本思想指導下進行。
    在2017年7月20號發布了《新一代人工智能發展規劃》,7月23號就成立了新一代人工智能產業技術創新戰略聯盟。這個聯盟給自己賦予了一個使命。當然聯盟本身是在科技部,在國家的指導下成立的。你要做什么?千頭萬緒,可以說聯盟產學研資用各方面的事情都可以用,都應該做,但是最核心的是抓什么東西,怎么把這些工作組織起來,我們當時成立的時候就很明確,新一代人工智能產業連們所有的核心工作就是建設人工智能的開源開放平臺,用這個平臺來把剛才說的產學研資用各方面的社會力量匯聚在一起,來支撐國家新一代人工智能規劃的落實。
    (見PPT)這個圖看著比較粗糙,這是2017年7月23號畫的,當時剛剛開始,但是基本思想很清楚。
    在2017年11月15號,科技部舉辦了新一代人工智能重大項目第一次的啟動會。實際上這是一個部際聯席會,不光是科技部,而是在整個國家的科技體制改革和創新體系領導小組組織下舉行的會議,由科技部牽頭組織,在這個會上我代表聯盟做了匯報,匯報的核心思想就是聯盟支撐國家規劃落地的核心工作叫“一體兩翼”,體就是新一代人工智能開源開放平臺,兩翼是各種工作組和推進組。
    在今年6月份,科技部有一本期刊《前沿科學》報道了我們國家新一代人工智能的進展,當時跟我約稿,我寫了一篇文章,我今天的題目也是來自這篇文章,叫做“堅定開源開放原則,筑成新一代人工智能”。因為經過了差不多兩年的進展之后,大家對中國的人工智能怎么發展有很多的討論,到底是開放還是封閉,到底是開源還是回到封閉的老路上去,大家有不同的看法。我用這個詞的意思就是堅定開源開放原則,不僅是開源開放,而且要更開放,這是當時定的原則,我們不能說兩年之后國內外形勢有一些變化,我們就退縮了,不應該這樣,應該更堅定地做開源開放。而且開源開放不僅僅是一個機制,它就是建成新一代人工智能最重要的一套推進的體系,它本身就是一套技術體系。所謂中國新一代人工智能,到2025年、2030年大家想象的人工智能是什么,當然這里面有一些科技的亮點,有一些重大的成果,但是它首先是一個整體,是一個技術的體系,這個體系才是新一代人工智能,它不是幾個閃光的點,它是像一個城市一樣,是一套堅實的體系。
    為什么要這么做?當時分析了這么幾個點:第一是為什么要做開源開放,有很多的理由,我認為最重要的理由有兩個,一是只有通過開源開放的方式,才能把技術的輻射性發揮出來,才能把國家的投入、社會的投入,以及大家的智慧,能發揮最大的效應,這是顯然的。我們不能再走回一個公司做一個產品,自己保密,靠一件一件產品盈利的老路上。二是AI跟別的技術不同,AI是一個難以透徹理解的技術,在AI之前所有的技術,包括我們的算法系統,是可以理解它背后的原理和過程的是完全可控的,但是AI具有難以透徹理解的特性,它越發展,挑戰越大。就像今天的深度學習工作得很好,大家就說我們要研究它可理解、可解釋,就變成了一個理論問題。因為不知道為什么工作那么好,但是它的性能很好,大家在實踐中就去用。這樣一種現象在未來不管什么樣的AI新的方法模型,還會持續下去,因為它是智能的,智能是一種功能,是一種現象,它背后的機理的理解,是在我們探索智能科學和技術過程中要永遠面對的一個問題,這樣一個技術在現實中應用,因為存在一個不能透徹解釋的特性,你還讓老百姓去用,你還不開放,然后你自己說這是一個黑箱子,這是一個模塊,只有我自己知道,你用吧。大家敢不敢放心去用?所以如果從理論上做不到可解釋、透徹地理解它,至少我們在技術上要做到開放,讓大家心里清楚這里面沒有暗藏什么東西,它只是一個技術,技術有這么一個屬性,我們科學家可以去解釋它、探索它,但是技術上絕對不能再封閉,封閉的東西是不可能有生命力,讓大家廣泛使用的。
    第二是如何做好開源開放,就是開源快速的組織問題,實際就是要聯合在一起,某種程度上要放棄一部分個體與企業的商業利益,而讓大家能夠分享,能夠共享、共建,發揮最大效應。這個思維方式在開源社區大家是比較認同的,但是在整個社會領域,特別是在中國現在這樣的狀態下,大家對開源可能用的多,貢獻的相對少,還是要大家一起來持續推動。
    第三是以開源開放提升創新質量。開源開放以前也存在,但是以前的開源開放和科技創新之間的關系通常是兩張皮的,這種兩張皮的現象,希望通過AI這樣一個新的領域,能夠結合在一起。事實上我們講科研,確實有很多高水平的研究團隊在努力地做創新工作,但是確實也有一部分團隊是拿項目作為目的,而不是以研究創新作為目的的,這種現象在中國也不少見,我們希望通過開源的方式,把這一類的項目淘汰下去,不是為研究而研究,一定要做有意義、有價值的研究,一定要開放。去年新一代人工智能重大科技項目,以及今年馬上要發布的重大科技項目的指南都很明確地提到,特別是搞理論研究的,必須要開源。你本來就是一個無人區或者是號稱前沿的探索,你不告訴別人你在做什么,等到幾年之后交個報告,就說自己做得怎么樣,這是有問題的?,F在是一個開放的時代,你一開始就應該打開這個過程,我們通過開源開放實際上是在提升創新質量,真是一流的研究,你不怕大家去知道、了解,甚至去參與、貢獻。只有那些自稱很好,事實上沒有什么東西的研究,才不敢開源開放。我們也希望通過這種方式,特別是通過跟科技部和相關政府部門,在做后續國家項目的推進過程中,國家出的錢,或者是地方政府出的錢,公共資金做的東西,你有什么理由要把它封閉在自己手里?你愿意自己做,不愿意用公眾的錢,那沒問題,你愛做什么就做什么,你既然拿公眾資金,你就應該開源開放,通過這種方式把那些低水平重復的工作、把那些沒有實質性創新的工作淘汰掉,來實現更高質量的創新,這也是我們要堅持開源開放的一個很重要的理由。
    在國家新一代人工智能重大科技項目的部署中,本身軟件、硬件的體系就是很重要的一部分,它也是連接研究團體社區和開發應用,以及全社會的一個很重要的渠道,這條原則會在未來十多年的科技創新2030重大科技項目中不斷地貫徹下去。所以大家做開發并不僅僅是傳統的做一個操作系統或者代碼的開發,它跟我們AI的研究結合得越來越密不可分。
    (見PPT)這就是剛才講的“一體兩翼”,這個圖就比7月23號那個圖跟好看一點了,但是基本思想是一樣的。
    在去年新一輪人工智能重大科技項目的落實中,還有一個詞大家在媒體上也看到過,叫“開放創新平臺”,由5家企業承擔了國家新一代開放創新平臺,這5家企業是:百度、阿里、騰訊、訊飛、商湯,大家從不同的方向推動創新。開放創新肯定不等于開源,并不是說這些企業做的所有的東西都要開源,但是他們也要開放,形成產業鏈,但是其中一部分是開源的,雖然一開始的時候有的是開源,有的不開源,但是隨著它往下發展,他們其中有一部分,特別是公共部分是要開源的。為什么要開源?他們相互之間要打通,要合作,要為社會整個人工智能的發展提供公共的平臺。除了這些領頭企業之外,全世界做開源的企業,包括做研究的機構非常多,你怎么讓這些機構能夠深度地介入到這樣一個開放創新過程?你一點都不開源,怎么可能做得到?除非你是一個壟斷一切的企業。但是我們今天沒有這樣的企業能夠壟斷一切,它都是這個社會創新的一個節點、一個部分,所以它一定程度上一定是要開源的。這些開源的部分和我們剛才講的開源會形成一體,就像一個熱帶雨林一樣,有的樹比較大,有的植物相對比較小,但是最終的根系是連接在一起,在一個共同的生態里生長。
    為了做好這件事情,2018年3月31號聯盟組織了OpenI許可證,當天就發布了,這個許可證本身的一些政策也一直作為討論的對象在討論,今天我們還會有一個新的頒布,今天不是發布,是在進行中,大家感興趣的可以參與它的維護和更新。
    從2018年3月31號發布許可證到今天,不到兩年的時間里面,聯盟組織了大量的工作,開了很多會,我就不一一說了,今天是一系列會議中最大規模的會議。
    (見PPT)這都是我們在進行的一系列的活動。
    我們現在是一個開源開放的社區,在這個社區里面我們有一套體制,有一套運行的機制,總體來說我們這是由會員組成的一套體系,這里面包括核心成員、高級成員、普通成員和合作伙伴。誰是高級、誰是核心,這就以貢獻論英雄,大家在建設這樣一個平臺和構建這個社區的過程中,你的領導力是逐漸體現出來的,單位的貢獻也是逐漸累積,大家都看得到的,根據這些貢獻逐漸形成我們的領導的體系。
    保障這套體系背后的就是一些規則、文件和大家形成的共識,現在體系化的系統也已經建立起來了。
    我今天是代表技術委員會來跟大家作報告,技術委員會已經做了很多背后的技術討論。我在北大工作,更多的是搞研究,做一些科研方面的事情,一開始為了把這件事情推動,所以我先牽頭組織。我們技術委員會的曾煒是鵬城實驗室的,馬艷軍來自百度,黃之鵬來自華為,余岳是國防科大,劉祥龍來自北航,曹祥來自微眾。我們這些委員是第一屆委員,目的是把工作先做起來,我們是根據前期的工作坐支的委員會,我希望后面有更多的貢獻之后,我們會逐漸的一個一個被替代掉,將來大家憑貢獻來進入這個技術委員會,第一批委員是為了先把這個事情做起來而啟動的。
    從今年1月27號籌備這個技術委員會,討論OpenI背后技術的重要技術問題開始,我們正式的會議已經開了5次,進行了十幾次討論,多數是通過視頻會議的方式,因為大家來自全國不同的地方、不同的單位,很難集中在一個會場,通常都是采用視頻會議來進行討論。1月份開了第一次會議,后來又舉行了幾次重要技術問題的討論會議,7月份是我們的第二次會,其實上半年也開了好多會,7月19號開的是第二次正式的會議,在這次會議上把我們的技術架構建立起來,9月份的會上我們討論了生態,怎么去建好一個開源的生態。最近這兩次會,一個今天的大會,另外一個是關于激勵機制怎么建立起來的討論。
    第一屆技術委員會成員主要是來自貢獻比較多的單位,包括鵬城實驗室、智源、北大、國防柯達、華為、百度和微眾銀行,還有其它的單位也在做貢獻。(見PPT)下面這些Logo是貢獻比較多的單位。
    (見PPT)這是6月份確定的,也正在支撐OpenI運行的技術體系。我們可能跟大家通常理解的開源有區別,OpenI既不是像github那樣支持各種各樣開源項目的管理平臺,又不是一個具體類似TensorFlow這樣的開源框架,它是圍繞AI的一批開源項目,而且這些開源項目不僅僅是要管理,支持大家在線開發,它還要運行。它不是一般的代碼開發,機器編譯運行就可以了,OpenI還需要強的算力支持一個大的模型運行。所以我們在建立這個體系的時候,基礎設施就不僅僅是通常的云計算或者是自己的機器就可以了,而是要有一個基礎的系統,這個基礎的系統包括兩個方面,(見PPT)藍色的部分是訓練平臺,算力很強的,你有一個大模型,它也能給你很快算出來,橙色的部分是運行的,通常大家理解的云設施。目前提供算力最大的是來自鵬城實驗室的云腦1號、2號。通常你要是開發一個AI的模型,是在深圳計算的,現在也有一些設施,但是聯網、分布式調度正在進行中的,會在全國各地陸陸續續上線,提供更多的計算能力。華為云是我們用的開發體系,因為大家都是在全國各地,在各個單位參與開發,通過華為云來提供支撐服務。
    另外我們這個開源本身也在做新硬件,剛才說的都是用成熟的硬件做的,但是新的人工智能的基礎硬件、開源的芯片也是我們開源體系的一部分,當然這還在起步階段,正在進行,希望有一天它能夠成為支撐我們整個體系運行的重要的組成部分。
    (見PPT)這是9月25號開始的OpenI開源芯片的項目,這是一個層次,偏基礎設施的層次。中間層次是軟件環境,包括三個方面,一是運行環境,就是為AI的訓練提供的基礎的軟件環境,章魚、珊瑚這本身是開源項目,同時它也是支撐我們運行的兩個重要的項目。還有開發環境,就是啟智、磐石和華為軟開云構建的環境,大家可以在上面上載、調試代碼。還有一個是數據環境,因為AI特別是大數據類的AI,需要很多數據的共享、交換和分布式的訓練,我們有一個數據協同環境,這是6月18號上線的,叫做OpenI縱橫,它自身也是一個開源項目,同時它支撐OpenI數據方面的任務。最上層是大家熟悉的開源框架,比如機器學習的框架飛槳,這是百度貢獻的框架,還有視頻的開源項目,后續還有一系列的項目。
    大家看我們過去一兩年時間構建的平臺,主要是底下的基礎設施,它本身又是開源的,大家可以對這些基礎的東西不斷地更新、貢獻,使得這個平臺越來越強大,當然我們也歡迎更多的開源項目出現。
    章魚智能資源管理系統、珊瑚是異構資源集群的調度,群體化協同創新開發的啟智磐石項目,聯邦學習數據管理的OpenI縱橫項目,基于深度學習的視頻編碼的海參項目,人工智能開源芯片海藻項目、深度學習的框架飛槳,以及飛槳上深度學習的可視化,還有強化學習,這是我們目前已經上線的主要項目。
    整體我們有一個社區,這套社區體系基本上是完整的,也希望大家在未來的工作中繼續完善這樣一個體系,促進更多的開源項目的培育、孵化、成長。
    剛才講了啟夢計劃,實際上是激勵,也是近期技術委員會討論的一個很重要的任務,就是怎么來更好地激勵大家,支持大家開源開放的工作。以前開源很多的動力,來自于志愿者,大家天生就愿意做這件事情,也來自一些企業的支持。既然新一代人工智能是國家支持的重要組成部分,所以這個支持范圍比傳統的更廣泛,包括剛才提到已經提供支持的鵬城實驗室等等核心成員單位,可能幾天之后就會有國家科技部、發改委的支持啟動。這些國家的力量、企業的力量、社會的力量怎么作用到貢獻者,這就涉及到怎么激勵大家,激勵也是社區建設的一個重要的組成部分,我們剛才說的都是源頭,這些資源來了,比如說國家的項目來了,有這些核心單位牽頭啟動,最終它要落實到一個一個貢獻者身上,這就是所謂的激勵計劃,這套體系正在建立過程中,我們希望真正的能夠讓這些愿意支持開源的資源用到對開源支持的技術人員的身上,這就是啟夢計劃的一個基本的想法。當然貢獻大和小,怎么去衡量,我們在社區里邊建立這套體系之后,剛才講的這些資源就可以按照這些貢獻去匹配和落實到位。
    開源許可證從去年3月份發布之后,到現在一直在討論,因為它是一個法律性很強的規則,盡管篇幅很長,但是它決定了我們將來這些代碼怎么用,將來商業化使用是不是存在一些約束,以及大家貢獻怎么來更好地體現,這樣一些最核心的權益,這也是社區里面在討論的很重要的組成部分,到今天為止有一個2.0的Alpha版,在這兩天的會議期間大家也可以就這個問題進行討論,后續有更多的時間,還可以討論。
    主要的基本思想,我們的許可證不像以前僅僅是對代碼的管理,在云計算的時代,并不是把代碼拿去開發一個產品,很多本身就是服務,所以在這個時代怎么來做好開源的管理非常重要。
    總結一下,從當初把開源作為一個聯盟的核心工作,到現在已經把整個體系建立起來了。這里面大家能看到一系列開源的項目,中間的開源就是驅動我們整個聯盟運行的核心力量。還有一個是標準,今天沒有時間展開講,但實際上標準是三個月舉行一次,現在已經是開了第7次會,馬上就要開第八次標準的會。我們開源的有些關鍵的技術、關鍵的接口需要跟包括非開源的接口進行互聯互通的時候,就要通過標準的方式去做了。聯盟是國家團體標準的制定單位,也是國家標準,我們做的團體標準可以通過綠色通道上升為國家標準。這是國家標準委給我們的一個責任,這兩個結合在一起,會對將來的產業整個生態發揮一個重要的作用。 聯盟工作組、推進組,這些方面也做了很多的推動工作。
    這套體系建立起來以后,我們一個社區,我們從底下的理論、技術、體系,這是傳統的國家和地方的項目支持的,中間就是開源開放平臺,包括平臺本身,以及我們的社區體系,上面有一套治理體系,比較偏軟性的,但是這也是我們長期發展的一個很重要的基礎,希望為中國的人工智能發展,為全世界的人工智能發展構建一個良好的生態。
    開源開放,共建共享,久久為功,這是一個長期的任務,希望通過我們這樣一個體系為中國人工智能2030世界領先做出我們的基礎性的貢獻。