亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

每日經(jīng)濟新聞
AI快訊

每經(jīng)網(wǎng)首頁 > AI快訊 > 正文

中國銀河給予計算機行業(yè)推薦評級:聊天機器人頂流ChatGPT,開啟自然語言處理領域新篇章

每日經(jīng)濟新聞 2022-12-13 10:39:21

每經(jīng)AI快訊,中國銀河12月13日發(fā)布研報稱:給予計算機推薦(維持)評級。

事件:12月1日,美國人工智能公司OpenAI在網(wǎng)頁上推出自然語言處理領域(NLP)的模型ChatGPT,它能夠通過對話方式進行交互,并根據(jù)用戶輸入的自然語言文本內容,自動生成新的文本內容。一周內,ChatGPT的用戶已突破100萬。

什么是ChatGPT:ChatGPT是在GPT3.5大模型語言模型(LLM,即LargeLanguageModel)的基礎上,加入“基于人類反饋的強化學習(RLHF,ReinforcementLearningfromHumanFeedback)”來不斷微調(Fine-tune)預訓練語言模型,使得LLM模型學會理解不同類型的命令指令,并通過多重標準合理判斷基于給定的prompt輸入指令,輸出的是否為優(yōu)質信息(這些標準包括:富含信息、內容豐富、對用戶有幫助、無害、不包含歧視信息等)。

ChatGPT引爆AIGC,AIGC將迎多場景爆發(fā)期:AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技術自動生成內容的新型生產(chǎn)方式。相比UGC和PGC,AIGC的最大不同是基于海量數(shù)據(jù)、風格隨機多變、跨模態(tài)融合、認知交互力等新技術導向特征。隨著ChatGPT的技術日漸成熟,AIGC將在電商虛擬主播、教育、金融、醫(yī)療、影視娛樂等多場景爆發(fā),并進一步催生元宇宙的快速發(fā)展。

ChatGPT的技術發(fā)展路徑:從GPT-1到InstructGPT,數(shù)據(jù)量與參數(shù)量不斷增加,模型精度和能力提升:2018年,在自然語言處理領域(NLP)剛興起時,OpenAI就推出了初代GPT,它的運行邏輯是:先通過無標簽數(shù)據(jù)學習生成語言模型,并能夠運用于一些與有監(jiān)督任務無關的NLP任務中。此后再根據(jù)特定的下游任務進行有監(jiān)督的微調,提高其泛化能力。GPT-2擴展了網(wǎng)絡參數(shù)和數(shù)據(jù)集,進行多任務學習,可以在數(shù)據(jù)量足夠豐富且模型容量足夠大時,通過訓練語言模型就能夠完成有監(jiān)督學習的任務。對比GPT-2,2020年推出的GPT-3最顯著的特征是龐大的數(shù)據(jù)量和參數(shù)投入,整體訓練過程耗資1200萬美元,投入數(shù)據(jù)量達上萬億,模型參數(shù)量達到1750億。GPT-3延續(xù)了前兩代GPT的技術架構,但改變了“大規(guī)模數(shù)據(jù)集預訓練+下游數(shù)據(jù)標注微調”的方式,采用情境學習(in-contextlearning)來提高模型對話輸出的性能。GPT-3的規(guī)模和語言能力幾乎是最強大的。它能在不做微調的情況下,在一些傳統(tǒng)的NLP任務中表現(xiàn)得更好,包括實現(xiàn)閉卷問答、模式解析、純語言建模、機器翻譯等;在新的領域,GPT-3將NLP的應用擴展到缺乏足夠訓練數(shù)據(jù)的領域,例如在開發(fā)程序代碼、文章生成和信息檢索領域取得了實質性的進展。然而,GPT-3在推理和理解能力上還有較長的路要走,在自然語言推理(NLI)任務中表現(xiàn)不佳。InstructGPT和ChatGPT:更好地遵循用戶意圖、更少的虛假信息。OpenAI在2022年初發(fā)布了InstructGPT。該語言模型通過“基于人類反饋的強化學習(RLHF)和監(jiān)督學習”來提高輸出質量。雖然InstructGPT的參數(shù)量僅為13億左右,相比于GPT-3縮小了100倍以上;但在遵循指令方面,能夠更好地遵循用戶意圖,將有害的、不真實或者有偏差的信息輸出最小化。在優(yōu)化的模型上,ChatGPT基于InstructGPT進一步改進,在模型結構和訓練流程上遵循上述方式,但收集和標注數(shù)據(jù)的方式上發(fā)生了變化,通過采取監(jiān)督學習的方式讓模型學習人類排序的方式。

ChatGPT的優(yōu)勢與缺陷:優(yōu)勢是ChatGPT不需要任何額外的訓練就能在多種不同的領域中應用并快速輸出高質量的文本,相較于以前的模型已具備較強的自然語言處理能力。但目前ChatGPT在精準性、真實性、重復率和依賴性等問題上尚待改善:第一、由于技術實現(xiàn)的問題,ChatGPT會不可避免地寫出一些似是而非、或者荒謬的答案,這將導致植入虛假數(shù)據(jù)和誤導用戶的風險。ChatGPT依然沒有完全克服大型語言模型(LLM)的這一常見缺點;第二、在較長的會話中,由于訓練數(shù)據(jù)的偏差和過度修正,ChatGPT會過度強調某些短語或者句子,導致重復性高的問題;第三、ChatGPT的強大能力依賴語料庫、數(shù)據(jù)量的抓取和復雜的訓練過程。ChatGPT模型依賴于大規(guī)模離線語料進行訓練,往往不能充分接受并采用在線提供的即時信息,難以理解對話中提及的因果關系,也無法基于已有信息進行推測,這距離人類舉一反三的能力相差較遠。

可能存在的瓶頸:ChatGPT本身的缺陷可能通過技術進步和優(yōu)化訓練方式得到解決,但它的爆火卻引發(fā)了人們對AIGC行業(yè)中安全性、倫理約束和創(chuàng)造力的思考,或將成為發(fā)展瓶頸:一方面,由于RLFH并不能完全避免ChatGPT訓練庫中學習到的不道德或有偏見的回答,也會導致在模糊提示或引導回答的過程中讓ChatGPT輸出一些有害信息,導致輸出結果的安全性降低。另一方面,在創(chuàng)造性、創(chuàng)作倫理和知識產(chǎn)權等方面并未形成有效界定。在數(shù)據(jù)挖掘、大規(guī)模計算、統(tǒng)計、多線程工作等數(shù)據(jù)處理分析領域,人工智能有著人類不可比擬的優(yōu)勢,但是以“創(chuàng)新和感知”為基礎的創(chuàng)造過程是機器學習和模型難以訓練的。目前ChatGPT能夠在用戶的引導下快速生成小說、詩歌、散文、編程等需要創(chuàng)造力的內容,或許將對創(chuàng)作者和以版權為基礎的行業(yè)造成沖擊。文本生成的過程是基于數(shù)據(jù)庫內容的學習,這是否會構成對被抓取作品的侵權,ChatGPT生成的文本內容是否具有著作權,是否屬于該用戶等一系列問題的答案尚不明確。

ChatGPT的能力目前幾乎可以涵蓋各個自然語言交互領域,例如聊天機器人、對話系統(tǒng)、智能客服、信息檢索、主題建模、文本生成和總結、NLP作為服務的翻譯、轉錄、總結等等,未來應用領域將面向藍海:例如,在聊天機器人領域,目前ChatGPT已經(jīng)能基本滿足用戶的提供個性化需求和信息提供服務;在需要智能客服的電商、金融、醫(yī)療、教育、政務等垂直領域等,ChatGPT能夠結合行業(yè)特點和需求,構建自動應答系統(tǒng),為客戶提供快速、準確的問題解答。除此外,在傳媒、娛樂、設計和影視領域,ChatGPT能夠協(xié)助完成一些較低層次的任務,包括文稿生成、采訪助手、摘要總結等,或將提高行業(yè)的運行效率。

ChatGPT的商業(yè)化落地方式還待商榷:第一、由于GPT-3的訓練耗資巨大,且需要大量的數(shù)據(jù)集和算力,即使ChatGPT未來應用前景廣闊,如果不能降低模型的更新訓練成本和推理成本,將限制中小B端企業(yè)的采購意愿。第二、目前正在免費測試階段的ChatGPT還未解決GPT-3模型存在的準確性和安全性問題,還需要進一步優(yōu)化迭代。此前,OpenAI已嘗試過通過API接口的方式推動GPT-3的商業(yè)化,但由于模型問題并未通過測試階段。雖然目前OpenAI已找到方式優(yōu)化輸出虛假信息的問題,但效力遠遠不足。如果不能解決這兩個問題,GPT的商業(yè)化道路還需等待。

投資建議:ChatGPT代表自然語言處理技術一大進步,利好相關AI公司的技術與產(chǎn)品落地,可重點關注拓爾思(300229.SZ)、商湯-W(0020.HK)、科大訊飛(002230.SZ)。

風險提示:技術研發(fā)不及預期的風險;商業(yè)化落地方式尚不明確的風險;下游需求不及預期的風險。

每經(jīng)頭條(nbdtoutiao)——經(jīng)濟學家姚洋:立足常識,發(fā)展才是解決一切問題的根本 | 重磅專訪

(記者 王曉波)

免責聲明:本文內容與數(shù)據(jù)僅供參考,不構成投資建議,使用前請核實。據(jù)此操作,風險自擔。

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

每經(jīng)AI快訊,中國銀河12月13日發(fā)布研報稱:給予計算機推薦(維持)評級。 事件:12月1日,美國人工智能公司OpenAI在網(wǎng)頁上推出自然語言處理領域(NLP)的模型ChatGPT,它能夠通過對話方式進行交互,并根據(jù)用戶輸入的自然語言文本內容,自動生成新的文本內容。一周內,ChatGPT的用戶已突破100萬。 什么是ChatGPT:ChatGPT是在GPT3.5大模型語言模型(LLM,即LargeLanguageModel)的基礎上,加入“基于人類反饋的強化學習(RLHF,ReinforcementLearningfromHumanFeedback)”來不斷微調(Fine-tune)預訓練語言模型,使得LLM模型學會理解不同類型的命令指令,并通過多重標準合理判斷基于給定的prompt輸入指令,輸出的是否為優(yōu)質信息(這些標準包括:富含信息、內容豐富、對用戶有幫助、無害、不包含歧視信息等)。 ChatGPT引爆AIGC,AIGC將迎多場景爆發(fā)期:AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技術自動生成內容的新型生產(chǎn)方式。相比UGC和PGC,AIGC的最大不同是基于海量數(shù)據(jù)、風格隨機多變、跨模態(tài)融合、認知交互力等新技術導向特征。隨著ChatGPT的技術日漸成熟,AIGC將在電商虛擬主播、教育、金融、醫(yī)療、影視娛樂等多場景爆發(fā),并進一步催生元宇宙的快速發(fā)展。 ChatGPT的技術發(fā)展路徑:從GPT-1到InstructGPT,數(shù)據(jù)量與參數(shù)量不斷增加,模型精度和能力提升:2018年,在自然語言處理領域(NLP)剛興起時,OpenAI就推出了初代GPT,它的運行邏輯是:先通過無標簽數(shù)據(jù)學習生成語言模型,并能夠運用于一些與有監(jiān)督任務無關的NLP任務中。此后再根據(jù)特定的下游任務進行有監(jiān)督的微調,提高其泛化能力。GPT-2擴展了網(wǎng)絡參數(shù)和數(shù)據(jù)集,進行多任務學習,可以在數(shù)據(jù)量足夠豐富且模型容量足夠大時,通過訓練語言模型就能夠完成有監(jiān)督學習的任務。對比GPT-2,2020年推出的GPT-3最顯著的特征是龐大的數(shù)據(jù)量和參數(shù)投入,整體訓練過程耗資1200萬美元,投入數(shù)據(jù)量達上萬億,模型參數(shù)量達到1750億。GPT-3延續(xù)了前兩代GPT的技術架構,但改變了“大規(guī)模數(shù)據(jù)集預訓練+下游數(shù)據(jù)標注微調”的方式,采用情境學習(in-contextlearning)來提高模型對話輸出的性能。GPT-3的規(guī)模和語言能力幾乎是最強大的。它能在不做微調的情況下,在一些傳統(tǒng)的NLP任務中表現(xiàn)得更好,包括實現(xiàn)閉卷問答、模式解析、純語言建模、機器翻譯等;在新的領域,GPT-3將NLP的應用擴展到缺乏足夠訓練數(shù)據(jù)的領域,例如在開發(fā)程序代碼、文章生成和信息檢索領域取得了實質性的進展。然而,GPT-3在推理和理解能力上還有較長的路要走,在自然語言推理(NLI)任務中表現(xiàn)不佳。InstructGPT和ChatGPT:更好地遵循用戶意圖、更少的虛假信息。OpenAI在2022年初發(fā)布了InstructGPT。該語言模型通過“基于人類反饋的強化學習(RLHF)和監(jiān)督學習”來提高輸出質量。雖然InstructGPT的參數(shù)量僅為13億左右,相比于GPT-3縮小了100倍以上;但在遵循指令方面,能夠更好地遵循用戶意圖,將有害的、不真實或者有偏差的信息輸出最小化。在優(yōu)化的模型上,ChatGPT基于InstructGPT進一步改進,在模型結構和訓練流程上遵循上述方式,但收集和標注數(shù)據(jù)的方式上發(fā)生了變化,通過采取監(jiān)督學習的方式讓模型學習人類排序的方式。 ChatGPT的優(yōu)勢與缺陷:優(yōu)勢是ChatGPT不需要任何額外的訓練就能在多種不同的領域中應用并快速輸出高質量的文本,相較于以前的模型已具備較強的自然語言處理能力。但目前ChatGPT在精準性、真實性、重復率和依賴性等問題上尚待改善:第一、由于技術實現(xiàn)的問題,ChatGPT會不可避免地寫出一些似是而非、或者荒謬的答案,這將導致植入虛假數(shù)據(jù)和誤導用戶的風險。ChatGPT依然沒有完全克服大型語言模型(LLM)的這一常見缺點;第二、在較長的會話中,由于訓練數(shù)據(jù)的偏差和過度修正,ChatGPT會過度強調某些短語或者句子,導致重復性高的問題;第三、ChatGPT的強大能力依賴語料庫、數(shù)據(jù)量的抓取和復雜的訓練過程。ChatGPT模型依賴于大規(guī)模離線語料進行訓練,往往不能充分接受并采用在線提供的即時信息,難以理解對話中提及的因果關系,也無法基于已有信息進行推測,這距離人類舉一反三的能力相差較遠。 可能存在的瓶頸:ChatGPT本身的缺陷可能通過技術進步和優(yōu)化訓練方式得到解決,但它的爆火卻引發(fā)了人們對AIGC行業(yè)中安全性、倫理約束和創(chuàng)造力的思考,或將成為發(fā)展瓶頸:一方面,由于RLFH并不能完全避免ChatGPT訓練庫中學習到的不道德或有偏見的回答,也會導致在模糊提示或引導回答的過程中讓ChatGPT輸出一些有害信息,導致輸出結果的安全性降低。另一方面,在創(chuàng)造性、創(chuàng)作倫理和知識產(chǎn)權等方面并未形成有效界定。在數(shù)據(jù)挖掘、大規(guī)模計算、統(tǒng)計、多線程工作等數(shù)據(jù)處理分析領域,人工智能有著人類不可比擬的優(yōu)勢,但是以“創(chuàng)新和感知”為基礎的創(chuàng)造過程是機器學習和模型難以訓練的。目前ChatGPT能夠在用戶的引導下快速生成小說、詩歌、散文、編程等需要創(chuàng)造力的內容,或許將對創(chuàng)作者和以版權為基礎的行業(yè)造成沖擊。文本生成的過程是基于數(shù)據(jù)庫內容的學習,這是否會構成對被抓取作品的侵權,ChatGPT生成的文本內容是否具有著作權,是否屬于該用戶等一系列問題的答案尚不明確。 ChatGPT的能力目前幾乎可以涵蓋各個自然語言交互領域,例如聊天機器人、對話系統(tǒng)、智能客服、信息檢索、主題建模、文本生成和總結、NLP作為服務的翻譯、轉錄、總結等等,未來應用領域將面向藍海:例如,在聊天機器人領域,目前ChatGPT已經(jīng)能基本滿足用戶的提供個性化需求和信息提供服務;在需要智能客服的電商、金融、醫(yī)療、教育、政務等垂直領域等,ChatGPT能夠結合行業(yè)特點和需求,構建自動應答系統(tǒng),為客戶提供快速、準確的問題解答。除此外,在傳媒、娛樂、設計和影視領域,ChatGPT能夠協(xié)助完成一些較低層次的任務,包括文稿生成、采訪助手、摘要總結等,或將提高行業(yè)的運行效率。 ChatGPT的商業(yè)化落地方式還待商榷:第一、由于GPT-3的訓練耗資巨大,且需要大量的數(shù)據(jù)集和算力,即使ChatGPT未來應用前景廣闊,如果不能降低模型的更新訓練成本和推理成本,將限制中小B端企業(yè)的采購意愿。第二、目前正在免費測試階段的ChatGPT還未解決GPT-3模型存在的準確性和安全性問題,還需要進一步優(yōu)化迭代。此前,OpenAI已嘗試過通過API接口的方式推動GPT-3的商業(yè)化,但由于模型問題并未通過測試階段。雖然目前OpenAI已找到方式優(yōu)化輸出虛假信息的問題,但效力遠遠不足。如果不能解決這兩個問題,GPT的商業(yè)化道路還需等待。 投資建議:ChatGPT代表自然語言處理技術一大進步,利好相關AI公司的技術與產(chǎn)品落地,可重點關注拓爾思(300229.SZ)、商湯-W(0020.HK)、科大訊飛(002230.SZ)。 風險提示:技術研發(fā)不及預期的風險;商業(yè)化落地方式尚不明確的風險;下游需求不及預期的風險。 免責聲明:本文內容與數(shù)據(jù)僅供參考,不構成投資建議,使用前核實。據(jù)此操作,風險自擔。

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0