|
OpenAI華人科學(xué)家翁荔:人類如何培養(yǎng)出下一代聰明且安全的AI技術(shù)时间:2024-11-04 【转载】 華人青年科學(xué)家、OpenAI研究副總裁(安全)翁荔(Lilian Weng)近期在2024Bilibili超級科學(xué)晚上發(fā)表主題為《AI 安全與“培養(yǎng)”之道》的演講。這是其首次在國內(nèi)發(fā)表關(guān)于 AI 技術(shù)的演講。 翁荔表示,ChatGPT橫空出世以來,AI技術(shù)如同搭乘了高速列車,迅速滲透并影響著人類。AI每天都在變化,需要我們用心引導(dǎo)、教育,確保是更好的服務(wù)于人類,同時確保安全。而一個既安全又智能的AI,無異于將為我們的生活帶來諸多裨益。 具體來說,隨著AI的智能化和自主化,確保其行為符合人類價值觀變得重要,AI可能因偏見而變得狹隘,或因?qū)剐怨舳艿劫|(zhì)疑。因此,需要用心引導(dǎo)AI,確保其服務(wù)于人類并確保安全,而AI安全是實現(xiàn)其潛在益處的基礎(chǔ),類似于自動駕駛技術(shù)。 從數(shù)據(jù)層面,提供多樣、全面、正確的數(shù)據(jù),可以減少AI的偏見,而依賴于多人標注的數(shù)據(jù),以提高AI的準確性;同時,基于強化學(xué)習(xí)(RL)和基于人類反饋的強化學(xué)習(xí)(RLHF),通過獎懲機制訓(xùn)練AI,類似于訓(xùn)練小狗;此外,使用模型自我評價和詳細的行為規(guī)則來提升AI的輸出質(zhì)量。比如,在文檔寫作和視頻音樂制作中,普通人可以通過設(shè)定背景、角色思想和關(guān)鍵詞來引導(dǎo)AI。 翁荔畢業(yè)于北京大學(xué)信息管理系,如今該系名為北京大學(xué)數(shù)字人文實驗室,她是2005 級本科生,是“兜樂”項目的骨干設(shè)計人員,畢業(yè)后赴美攻讀博士學(xué)位,曾就職于Facebook,如今是OpenAI華人科學(xué)家、ChatGPT的貢獻者之一。 翁荔在2018年加入OpenAI,后來在GPT-4項目中主要參與預(yù)訓(xùn)練、強化學(xué)習(xí)&對齊、模型安全等方面的工作。她曾提出最著名的Agent公式——Agent=大模型+記憶+主動規(guī)劃+工具使用。 翁荔在演講中表示,人類需要教會AI安全基本原則和道德準則,使其成為人類的伙伴。同時,通過思維鏈(CoT)推理和擴展性研究來提升AI的可靠性和監(jiān)督。 翁荔強調(diào),AI安全需要每個人的參與,社區(qū)可以共同影響AI的成長。 “AI的安全不僅僅是研究者的責任,它需要每一個人的參與。AI 技術(shù)是一把雙刃劍,它帶來的便利和挑戰(zhàn)并行,我們的參與至關(guān)重要!蔽汤蠓Q。 以下是翁荔演講內(nèi)容,經(jīng)鈦媒體AGI編輯整理: 大家好,我是翁荔。今天我想與大家探討一個既深刻又有趣的話題,AI安全,以及我們?nèi)绾蜗衽囵B(yǎng)下一代一樣,培育出既聰明又安全的人工智能。 繼ChatGPT橫空出世以來,AI技術(shù)如同搭乘了高速列車,迅速滲透并影響著我們的日常。 AI每天都在進化,需要我們用心引導(dǎo)與教育,以確保其更好地服務(wù)于人類,同時確保安全無虞。一個既安全又智能的AI無疑將為我們的生活帶來諸多裨益。 試想一下,一個能洞察你生活習(xí)慣的智能家居系統(tǒng),能根據(jù)你的需求自動調(diào)節(jié)室內(nèi)溫度和光線,或是一個時刻關(guān)注你健康狀況的AI助手,能為你提供量身定制的健康建議。 AI不僅能顯著提升我們的生活質(zhì)量,還能開辟新的就業(yè)領(lǐng)域,提升工作效率。 然而,這一切均建立在AI安全的基礎(chǔ)之上。正如自動駕駛技術(shù)一樣,它能極大的提升生活便利性,但是一旦出錯,后果可能不堪設(shè)想。 隨著AI應(yīng)用日益智能化與自主化,如何確保AI的行為符合人類價值觀,真正做到以人為本,成為了AI安全與對齊研究的核心議題。人類在成長過程中會不斷學(xué)習(xí)進步,但也會遇到成長的煩惱。AI同樣如此,它可能會因為數(shù)據(jù)偏見而變得狹隘,也可能因為對抗性攻擊而被惡意利用。 悉心教育,也就是AI安全和對其研究,才能使AI成長過程更加順利。 讓我們以健康領(lǐng)域的應(yīng)用為例,很多疾病研究的數(shù)據(jù)往往以男性群體為主,這可能導(dǎo)致AI在處理女性的健康問題時風(fēng)險評估不準確。此外數(shù)據(jù)本身也有可能存在偏見,比如有研究表明女性心臟病癥狀更容易被歸結(jié)成焦慮等心理問題而造成診斷遺漏。因此,我們需要通過對AI安全和對其的研究來減少這種偏見。 AI學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù),數(shù)據(jù)是它的實物,要想讓AI變得聰明可靠,我們必須確保它營養(yǎng)均衡,也就是提供多樣、全面、正確的數(shù)據(jù),幫助它能夠正確的理解這個復(fù)雜的世界并減少偏差。 在使用人類標注的數(shù)據(jù)時,我們可以依賴于群體智慧,也就是the wisdom of the crowd,即同一個數(shù)據(jù)點被多人標注多數(shù)票獲勝,這種方法簡單而有效。有意思的是,1907年的一篇自然科學(xué)雜志中的文章,作者追蹤了一場年度展覽會上的一個有趣的競有獎競猜。展覽會上人們選出一頭肥牛,讓大家來猜測牛的重量,最接近真實數(shù)據(jù)的人將獲得大額的獎金。 作者發(fā)現(xiàn),最中間值往往是最接近真實的the medium value,而這個數(shù)估計值也被稱為wax popular。它是拉丁語中the voice of the people,也就是人民的聲音的意思。在這篇將近120年前的科學(xué)文章中,作者總結(jié)道,我認為這個結(jié)果比人們預(yù)期的更能證明民主判斷的可信度。這也是最早提到群體智慧如何發(fā)生作用的科學(xué)文獻。 而至于如何把高質(zhì)量標注的數(shù)據(jù)喂給AI,基于人類反饋的強化學(xué)習(xí),也就是RLHF技術(shù)起到了關(guān)鍵作用。 在了解RLHF之前,讓我們快速了解一下什么是RL reinforce learning。強化學(xué)習(xí)是一種機器學(xué)習(xí)方法,它主要通過獎懲機制來讓模型學(xué)會完成任務(wù),而不是依靠直接告訴模型如何去做這些任務(wù)。想象一下它就好像你要訓(xùn)練小狗,如果小狗做對了一個動作,比如坐下你就給它一塊骨頭餅干,做錯了就不給獎勵。這樣小狗就會因為想吃到更多的餅干,而學(xué)會如何正確的坐下。 同理,AI也在這種獎懲機制中學(xué)習(xí),通過不斷的嘗試并得到反饋,找到最佳的行動策略。一個早期的研究表明,強化學(xué)習(xí)能利用少量人類反饋,快速有效的教會智能體做復(fù)雜的動作,比如學(xué)會如何后空翻。 同樣的方法也可以用于訓(xùn)練大語言模型。當我們看到,針對同一問題的不同AI回答時,我們可以告訴模型,哪一個回答更好、更正確、更符合人類價值觀。這樣我們就像家長糾正孩子一樣,能夠調(diào)節(jié)AI的學(xué)習(xí)過程。 此外,我們還可以使用模型本身作為輸出I輸出質(zhì)量的評分者。比如在entropic發(fā)表的constitutional AI中,模型就通過對自己行為的自我評價進行改進;蛘呦馩penAI最近發(fā)表的對齊強化學(xué)習(xí)中,我們可以制定非常詳細的行為規(guī)則來告訴AI,比如如何何時拒絕用戶的請求,如何表達同理心等等。然后我們在RL的獎勵機制中,非常精準的來給予相應(yīng)的評分和獎勵。這個過程中,一個更加強大的AI有能力更精準的判斷他是否有在遵循人類的價值觀和行為準則。 總之,強化學(xué)習(xí)技術(shù)就像一把鑰匙,幫助我們打開AI高質(zhì)量學(xué)習(xí)和發(fā)展的大門。在培養(yǎng)AI更懂我們的過程中,普通人也能發(fā)揮重要的作用。 在文檔寫作,我們可以采用兩個小技巧。首先設(shè)定詳細的背景和角色,就像導(dǎo)演為演員準備劇本一樣,讓AI在豐富的情境中捕捉我們的意圖。其次,精心挑選關(guān)鍵詞,構(gòu)建邏輯清晰的文檔結(jié)構(gòu),使文檔既美觀又實用。 在視頻音樂制作領(lǐng)域,我們可以通過使用專業(yè)術(shù)語來引導(dǎo)AI比如黃金分割構(gòu)圖或和弦進行將創(chuàng)意轉(zhuǎn)化為現(xiàn)實。同時別忘了感情的投入,因為這是賦予靈作品靈魂的關(guān)鍵。 簡而言之,通過細致的指導(dǎo)和情感的融入,我們可以幫助AI創(chuàng)作出既豐富又富有感染力的作品。 在西游記中,孫悟空有緊箍咒約束行為,我們應(yīng)該給AI模型也帶上緊箍咒,也就是教會AI安全基本準則約束和道德標準,讓其遵守行為規(guī)范。以人類利益為先,成為我們貼心的伙伴,而不是冰冷的機器。 讓AI學(xué)習(xí)基本原則和道德準則,可以使模型在面對復(fù)雜問題時運用推理得出正確的結(jié)論。 比如在OpenAI最近發(fā)表的o1-preview模型中,我們通過思維鏈推理,加強了模型的魯棒性,Robust使得模型可以更好的抵抗越獄攻擊。 擴展性監(jiān)督在AI對其研究中也非常重要。隨著AI模型擴大,需要結(jié)合自動化工具和人類監(jiān)督,有效的監(jiān)督其行為,確保它朝著正確的方向發(fā)展。在一組研究中,我們用監(jiān)督學(xué)習(xí)訓(xùn)練語言模型,對網(wǎng)絡(luò)文本摘要進行批評。比如提高提供這個摘要非常準確,或者這個摘要遺漏了要點等等。評論相比對照組,我們發(fā)現(xiàn)有AI幫助的標注員比沒有幫助的能多。找出摘要中約50%的問題,而且多數(shù)批評都參考了模型提供的內(nèi)容?傊,給AI設(shè)定標準并進行有效監(jiān)督,可以提升它對人們的幫助。 其實,AI的安全不僅僅是研究者的責任,它需要每一個人的參與。 以B站為例,這個充滿活力的社區(qū)聚集了眾多AI愛好者和創(chuàng)作者,我們在這里分享見解、討論問題,甚至監(jiān)督AI的表現(xiàn),共同影響著AI的成長。 我們每個人都應(yīng)該成為AI的大家長,不僅監(jiān)督和反饋AI的表現(xiàn),還參與塑造一個安全可信的AI 世界。 AI技術(shù)是一個雙刃劍,它帶來了便利與挑戰(zhàn)并行,我們的參與至關(guān)重要。讓我們攜手培養(yǎng)出一個既聰明又負責的AI伙伴。感謝大家的聆聽,希望今天的分享能激發(fā)大家對于安全的熱情和興趣。也感謝B站提供這個平臺,讓我們共同為AI的未來貢獻力量。 |