每日經(jīng)濟(jì)新聞 2024-01-30 13:28:31
◎“我自己覺得,泛泛地去談醫(yī)療大健康或大模型,實(shí)際上是很大的問題。我更傾向于做垂直大模型,就解決一件事兒,這樣才有價(jià)值。”
◎“我理解的‘科學(xué)家精神’就是鉆研科學(xué)規(guī)律,探索科學(xué)真理,實(shí)事求是地去了解客觀。”
每經(jīng)記者 林姿辰 每經(jīng)編輯 董興生
“人生的抉擇是非常重要的。(我的人生至此經(jīng)歷了三次抉擇:)第一次是給沃森寫信,相信人類一定要破譯遺傳密碼,此后參加了中國的人類基因組研究;第二次是對(duì)人類基因組序列組裝后發(fā)現(xiàn),編碼蛋白質(zhì)的基因組序列只占人類基因組的一小部分(不超過5%),從而率先開展了非編碼研究;第三次,就是我最近參與學(xué)習(xí)、研究和推動(dòng)大模型。”
說出這段話的,是今年已經(jīng)83歲的陳潤生。在網(wǎng)絡(luò)上搜索他的名字,“中國科學(xué)院院士”“國際歐亞科學(xué)院院士”“中國生物信息學(xué)研究第一人”等詞條依次跳出,暗示著這是一位“老派”科學(xué)家。但在以Z世代為主要用戶的B站上,一則由陳潤生主講的短視頻——“人類能用基因技術(shù)編輯出‘完美生物’嗎”,播放量破萬次。
AI(人工智能)發(fā)展日新月異的今天,年輕人對(duì)生物信息學(xué)更感興趣了,陳潤生也在緊追“潮流”。近日,在北京翊博生物集團(tuán)有限公司(簡稱“翊博生物”)參與主辦的“北京CGT新勢發(fā)布會(huì)”上,《每日經(jīng)濟(jì)新聞》記者與陳潤生展開對(duì)話,走近了他心中的生物信息學(xué)和未來世界。
陳潤生是中國最早從事理論生物學(xué)、生物信息學(xué)以及非編碼RNA研究的科研人員之一,他主動(dòng)給諾貝爾獎(jiǎng)獲得者詹姆斯•杜威•沃森和中國科學(xué)院院士吳旻寫信、參與人類基因組計(jì)劃工作的經(jīng)歷是科學(xué)界的一段佳話。
生物信息學(xué)是以生物學(xué)、數(shù)學(xué)和信息科學(xué)為基礎(chǔ)的交叉科學(xué),通過綜合運(yùn)用數(shù)學(xué)和信息科學(xué)等多領(lǐng)域的方法和工具對(duì)生物信息進(jìn)行獲取、加工、存儲(chǔ)、分析和解釋,來闡明大量生物數(shù)據(jù)所包含的生物學(xué)意義,研究重點(diǎn)主要是基因組學(xué)和蛋白質(zhì)組學(xué),直逼人類基因深處的秘密。
在醫(yī)療科技助力下,生物信息學(xué)正以驚人的速度發(fā)展。即便是對(duì)這位老教授而言,2023年也是令他眼花繚亂的:
2023年7月31日,谷歌發(fā)布首個(gè)全科醫(yī)療大模型,懂臨床語言、懂影像,也懂基因組學(xué);
2023年10月2日,諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)獲獎(jiǎng)名單公布,獲獎(jiǎng)?wù)呖ㄋ?bull;卡里科(Katalin Karikó)、德魯•魏斯曼(Drew Weissman)在核苷酸堿基修飾方面的發(fā)現(xiàn),使mRNA疫苗能夠研制成功;
2023年11月,全球首個(gè)CRISPR/Cas9基因編輯療法Casgevy在英國獲有條件上市,用于治療鐮狀細(xì)胞?。⊿CD)和輸血依賴性β地中海貧血(TDT)
......
不過,在陳潤生看來,生物信息學(xué)的重要問題并無變化,仍是多組學(xué)分析。尤其是進(jìn)入大數(shù)據(jù)時(shí)代,來自分子水平的數(shù)據(jù),包括單細(xì)胞的多組學(xué)數(shù)據(jù),依然是目前生物信息學(xué)要分析的重要方向。當(dāng)前,學(xué)界關(guān)注的重要趨勢,是單細(xì)胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組等多組學(xué)分析,其中單細(xì)胞轉(zhuǎn)錄組能明確每個(gè)細(xì)胞與疾病間的關(guān)聯(lián);空間轉(zhuǎn)錄組則是確定多個(gè)基因在不同細(xì)胞類型、不同組織類型和不同發(fā)育階段中的表達(dá),明確運(yùn)作機(jī)制。
“我自己覺得,整個(gè)生物信息學(xué)越來越重要,它會(huì)滲透在整個(gè)未來生物醫(yī)學(xué)發(fā)展的方方面面。”陳潤生告訴記者。但他也承認(rèn),這個(gè)過程可能要面臨安全性和有效性的平衡,或者說政策和技術(shù)的平衡。以基因編輯為例,在未來生物技術(shù)中,基因編輯也絕對(duì)是有效的、獨(dú)特的、前沿的技術(shù),但最重要的問題是它的安全性,在使用中一定要建立標(biāo)準(zhǔn)、共識(shí)和法規(guī)。
“基因編輯一般在單個(gè)細(xì)胞進(jìn)行,改了一個(gè)細(xì)胞之后復(fù)制的細(xì)胞就都變了,所以原則來講應(yīng)該100%有效才行;如果99%有效,那么它后續(xù)的效果是應(yīng)當(dāng)值得斟酌的。”陳潤生說。
另外,還有一系列技術(shù)問題亟待解決。目前,基因編輯只能定點(diǎn)解決一個(gè)DNA或RNA的問題,應(yīng)用范圍相對(duì)較窄,比如Casgevy獲批的兩項(xiàng)適應(yīng)癥均為單基因罕見病,對(duì)于上億個(gè)細(xì)胞發(fā)生變異的腫瘤疾病,基因編輯目前還無能為力。
“過去可能認(rèn)為人工智能超過人是科幻,但現(xiàn)在看也變成科學(xué)了。”
陳潤生的感慨與2023年發(fā)生的另一大事件——ChatGPT橫空出世有關(guān)。隨著學(xué)科的發(fā)展,越來越多的數(shù)據(jù)需要分析,人工智能成為一個(gè)重要手段,其中以ChatGPT為代表的大語言模型的出現(xiàn),為數(shù)據(jù)分析帶來革命性的影響。
陳潤生認(rèn)為,這是因?yàn)榇竽P蛶砹藘蓚€(gè)變化:一是解決了自然語言的識(shí)別問題,“計(jì)算機(jī)可以讀書了”;二是實(shí)現(xiàn)多模態(tài)的融合,從原來只會(huì)“下棋”的專家變成“雜家”。
“大模型是在原來AI基礎(chǔ)上的提高,這個(gè)提高最核心的問題就是它能像人一樣學(xué)習(xí)自然語言。一個(gè)計(jì)算機(jī)讀書是沒有限制的,所以它跟任何一個(gè)個(gè)體比,絕對(duì)是超過你的。”
陳潤生 圖片來源:受訪者供圖
比如,過去陳潤生參與的人類基因組計(jì)劃的DNA序列拼接、組裝和功能元件識(shí)別的方法研究,需要大量人工計(jì)算、資料整理。但大模型的出現(xiàn)使得轉(zhuǎn)錄組、表觀組和蛋白組的信息整合成為可能。而在創(chuàng)新藥物研發(fā)領(lǐng)域,無論是英國上市AI制藥公司Benevolent AI的AI增強(qiáng)大模型,還是2021年國內(nèi)發(fā)布的華為云盤古藥物分子大模型,都是人工智能輔助藥物設(shè)計(jì)的工具。
目前,陳潤生團(tuán)隊(duì)也開發(fā)了一個(gè)醫(yī)學(xué)多模態(tài)數(shù)據(jù)智能整合計(jì)算平臺(tái)——靈樞,能夠?qū)?dāng)前生物醫(yī)藥的大數(shù)據(jù)整合在一個(gè)大模型中。陳潤生表示,團(tuán)隊(duì)正在探索性地將中醫(yī)藥相關(guān)數(shù)據(jù)整合到該模型中,希望實(shí)現(xiàn)“中西醫(yī)結(jié)合”,為疾病治療帶來更大的益處。
“用專業(yè)的數(shù)據(jù)把大模型訓(xùn)練成一個(gè)特化的‘腦子’,仍然是當(dāng)前大模型給各個(gè)領(lǐng)域提供的一個(gè)很好的工具,靈樞就是希望用中醫(yī)的知識(shí)建立這樣一個(gè)特化的模型。”陳潤生說。
不過,新事物也帶來新挑戰(zhàn)。當(dāng)前的大模型提出了一系列具有挑戰(zhàn)性且十分尖銳的問題,即人工智能能否超過人腦(自然智能),什么時(shí)候超過,超過之后的社會(huì)結(jié)構(gòu)、組織形式該如何運(yùn)轉(zhuǎn)?陳潤生認(rèn)為,這才是本次大模型的核心爭論,這個(gè)爭論不僅涉及科學(xué)、產(chǎn)業(yè),更重要的是對(duì)整個(gè)社會(huì)造成的沖擊。
另外,精準(zhǔn)醫(yī)學(xué)發(fā)展是國家間科技競爭的一大關(guān)鍵,大模型的出現(xiàn)可能會(huì)導(dǎo)致進(jìn)一步的知識(shí)壟斷。從長遠(yuǎn)看,發(fā)展隸屬于國家、為未來發(fā)展服務(wù)的國家級(jí)大模型是必要的,而如何保證學(xué)術(shù)交流與本國資源保護(hù)也需要謹(jǐn)慎平衡,需根據(jù)某些共識(shí)和規(guī)則做決定。“但需要注意,這種抉擇是一種科學(xué)的抉擇,不可以一拍腦袋就畫死了線。”陳潤生說。
2023年5月25日,中國互聯(lián)網(wǎng)醫(yī)療公司醫(yī)聯(lián)發(fā)布了在研的醫(yī)療大語言模型“MedGPT”,整合了超過1000多種醫(yī)療模塊,預(yù)計(jì)在2023年底可覆蓋80%病種的就診需求;同年12月,螞蟻集團(tuán)正式開源國內(nèi)首個(gè)醫(yī)療??仆评頂?shù)據(jù)集,意在提升大模型在醫(yī)療領(lǐng)域的專業(yè)性。
由此,業(yè)內(nèi)對(duì)醫(yī)療大模型“泛化”和“垂直”的討論持續(xù)不斷,陳潤生更支持后者。
“我自己覺得,泛泛地去談醫(yī)療大健康或大模型,實(shí)際上是很大的問題。我更傾向于做垂直大模型,就解決一件事兒,這樣才有價(jià)值。”
陳潤生的考慮依據(jù)是,在技術(shù)條件不變的前提下,醫(yī)療大模型的好壞是由積累數(shù)據(jù)數(shù)量決定的,而服務(wù)于臨床的大模型之所以難做,主要是數(shù)據(jù)比較難收集。一方面,像金融等行業(yè)一樣,醫(yī)學(xué)領(lǐng)域數(shù)據(jù)面臨隱私保護(hù)問題;另一方面,醫(yī)療過程涉及臨床檢驗(yàn)、診斷等多個(gè)環(huán)節(jié),做一個(gè)全覆蓋的泛醫(yī)療大模型,效果很難理想,倒不如聚焦某一環(huán)節(jié)做扎實(shí)。
但話說回來,數(shù)據(jù)收集還不是最難的環(huán)節(jié)。“最難的并不是說誰有什么數(shù)據(jù),誰有什么模型,難的是要有一組人能夠確切地、客觀地了解信息學(xué)和生物學(xué)兩個(gè)方面”,這組人也就是業(yè)內(nèi)所稱的“復(fù)合型人才”。
陳潤生告訴《每日經(jīng)濟(jì)新聞》記者,大模型為多組學(xué)分析提供平臺(tái),實(shí)際上是搭建了一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò),就像人類儲(chǔ)存知識(shí)取決于每個(gè)神經(jīng)元的閾值,以及神經(jīng)元與神經(jīng)元間連接的權(quán),每有一次知識(shí)輸入,這兩個(gè)參數(shù)都會(huì)發(fā)生變化。當(dāng)知識(shí)反復(fù)輸入,而兩個(gè)參數(shù)不再發(fā)生變化時(shí),就意味著達(dá)到“學(xué)會(huì)了”的狀態(tài)。而大模型學(xué)習(xí)、存儲(chǔ)知識(shí)的過程也與此類似,技術(shù)人員可以按照這一規(guī)律先后拿基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、蛋白組數(shù)據(jù)訓(xùn)練大模型,最終讓復(fù)雜網(wǎng)絡(luò)實(shí)現(xiàn)多組學(xué)數(shù)據(jù)的相互作用,也就是多模態(tài)融合。
圖片來源:視覺中國-VCG11385119793
不過,在實(shí)踐過程中,如何填平結(jié)構(gòu)網(wǎng)絡(luò)技術(shù)人員與生物信息學(xué)研究人員之間的認(rèn)知Gap(差距),還是國內(nèi)外企業(yè)共同面臨的難題,而這也促成了具有資源整合優(yōu)勢的頭部科技企業(yè)的成功,比如OpenAI和Google。
與此形成鮮明對(duì)比的,是國內(nèi)的“百模大戰(zhàn)”。去年11月15日,百度董事長兼首席執(zhí)行官李彥宏在深圳西麗湖論壇上表示,國內(nèi)已經(jīng)發(fā)布了238個(gè)大模型。這意味著,在進(jìn)入2023年的兩百多天里,平均每天都有一個(gè)大模型問世,但基于大模型開發(fā)出來的AI原生應(yīng)用卻非常少。
陳潤生也關(guān)注到了這一現(xiàn)象,并且表現(xiàn)出明確反對(duì)態(tài)度。他認(rèn)為,那么多大模型更像是一種噱頭,一味宣傳數(shù)量帶來的只是進(jìn)一步內(nèi)卷,最終導(dǎo)致人力和資源浪費(fèi)。相應(yīng)的部門應(yīng)當(dāng)考慮這些大模型之間的協(xié)同與整合問題,“‘各自為戰(zhàn)’效率肯定是低的”。
無論在大模型等工具層面,還是在基因編輯、細(xì)胞治療等創(chuàng)新技術(shù)、具體療法的創(chuàng)新適應(yīng)癥上,中國企業(yè)的身影并不多,但中國是生物信息學(xué)基礎(chǔ)研究大國。
根據(jù)第三方平臺(tái)“科研貓”統(tǒng)計(jì)數(shù)據(jù),2021年,全球生物信息學(xué)類發(fā)表期刊文章超過6700篇,來自中國科學(xué)家的論文數(shù)量超過4600篇,其中來自內(nèi)地的共4518篇,占比超66%,數(shù)量和占比遠(yuǎn)超歐美發(fā)達(dá)國家。
過去,許多論文發(fā)表后被束之高閣,成果轉(zhuǎn)化的路并不順暢,陳潤生對(duì)此深有體會(huì)。“以前腦子里沒這個(gè)概念,科學(xué)家發(fā)了Paper(論文),發(fā)現(xiàn)某個(gè)靶點(diǎn)與腫瘤有關(guān),但不會(huì)想到要把它變成一個(gè)藥,走不過這一步,所以我們沒法在成果端看到。”
如何補(bǔ)齊這一差距?陳潤生認(rèn)為,最重要的是要建立一套更有效的轉(zhuǎn)化機(jī)制,最好是在大學(xué)內(nèi)部有專利團(tuán)隊(duì)、法律團(tuán)隊(duì)等“接口”,更便利地實(shí)現(xiàn)國內(nèi)現(xiàn)有基礎(chǔ)研究成果的轉(zhuǎn)化。以美國為例,在擁有雄厚科研力量的基礎(chǔ)上,基礎(chǔ)研究成果的產(chǎn)權(quán)問題由多項(xiàng)法案厘清,技術(shù)轉(zhuǎn)讓從最初的評(píng)估到最后的收入管理,則有高水平、專業(yè)化和系統(tǒng)化的“一條龍”服務(wù)。
值得一提的是,雖然美國的產(chǎn)業(yè)化轉(zhuǎn)化效率較高,但科學(xué)家創(chuàng)業(yè)熱情似乎不大、失敗率也較高。美國巴士底有限公司CEO布拉德利•拉尚接受媒體采訪時(shí)曾表示,美國高校教授嘗試創(chuàng)辦的公司,往往以驚人的速度倒閉,失敗率高達(dá)96%—97%,主要原因是科學(xué)家對(duì)自己領(lǐng)域的研究和專業(yè)知識(shí)充滿熱情,但缺乏管理經(jīng)驗(yàn);而隨著公司經(jīng)營受挫,技術(shù)也常常丟失。
陳潤生對(duì)此已有深刻的認(rèn)知。為了加快科學(xué)成果在產(chǎn)業(yè)上的轉(zhuǎn)化速度,陳潤生作為“參謀”加入了翊博生物的DC細(xì)胞(樹突狀細(xì)胞,目前已知的體內(nèi)調(diào)節(jié)功能最強(qiáng)的抗原提呈細(xì)胞)前端的科研工作。陳潤生表示,DC細(xì)胞是免疫系統(tǒng)和疾病相關(guān)免疫研究的重要領(lǐng)域,是公司的主要研究方向。如何讓DC細(xì)胞發(fā)揮更大的作用,其對(duì)遺傳密碼的認(rèn)知能派上用場。
“在推進(jìn)科學(xué)轉(zhuǎn)化時(shí),我們更多了解到公司的運(yùn)營規(guī)律,深深體到我們不適合干那個(gè)(管理),我們的角色永遠(yuǎn)是技術(shù)提供者。各取所長、分工協(xié)同,對(duì)于公司持續(xù)發(fā)展非常重要。”陳潤生坦言。
而這也符合陳潤生給自己的定位——一個(gè)純粹的科學(xué)家。他認(rèn)為,不管時(shí)代怎么變,科學(xué)家精神是不變的,但也要有變的東西,比如順應(yīng)發(fā)展的“四個(gè)面向”精神,要堅(jiān)持面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場、面向國家重大需求、面向人民生命健康,不斷向科學(xué)技術(shù)廣度和深度進(jìn)軍。
另外,復(fù)合型人才的培養(yǎng)也是新時(shí)代提出的新命題。目前,BT(生物技術(shù))和IT(信息技術(shù))相結(jié)合是適應(yīng)國際科學(xué)發(fā)展的明確信號(hào)和趨勢,但“要產(chǎn)生復(fù)合型人才,必須得有復(fù)合型人才去教”,可目前國內(nèi)符合條件的導(dǎo)師個(gè)體卻比較少。陳潤生認(rèn)為,如果能建立一個(gè)具有融合特征的復(fù)合型導(dǎo)師團(tuán)隊(duì),會(huì)是一條不錯(cuò)的探索路徑。
記者手記 | 一位83歲的科學(xué)家,很“年輕”
“科學(xué)家們就是要有科學(xué)精神,要真正地、老老實(shí)實(shí)地去學(xué)知識(shí),達(dá)到一定深度了才能從事這個(gè)領(lǐng)域的工作。而不是說有萬能科學(xué)家,聽什么都懂,實(shí)際上是做不下去的。”
“您認(rèn)為的科學(xué)家精神是什么?”
“我理解的‘科學(xué)家精神’就是鉆研科學(xué)規(guī)律,探索科學(xué)真理,實(shí)事求是地去了解客觀。”
初見陳潤生,會(huì)不自覺地被他中氣十足的聲音吸引,然后忘記他是一位83歲的老人。在陳潤生的身上,年齡似乎真的只是一個(gè)數(shù)字。
他告訴記者,自己依然每天看書,人工智能和大模型相關(guān)知識(shí)都是一點(diǎn)點(diǎn)自學(xué)的。“不能放棄學(xué)習(xí),這是我們做科研的基本素質(zhì)。哪天不學(xué)習(xí)了,你肯定就跟不上了,這是一個(gè)自覺。”他笑著告訴記者,老了跟不上潮流很正常,但只要想跟上潮流,就必須強(qiáng)迫自己學(xué)習(xí)。
當(dāng)然,這也是為了和年輕人交流。36年來,陳潤生一直堅(jiān)持在中國科學(xué)院講授生物信息學(xué),能容納千人的禮堂經(jīng)常座無虛席,不論專業(yè)是“數(shù)理化”還是“天地生”,研究生院的學(xué)生幾乎都去聽過陳潤生的課。這是一種令人羨慕的能力和魅力。
陳潤生慷慨地把其中的“秘訣”分享給記者:自己不是在講課,而是在與聽眾朋友交流,以學(xué)術(shù)為基礎(chǔ)來把方法論和感悟傳承下去,“共同去了解客觀”。
“你傳遞給人的是有用的東西,有用大家才聽,大家感興趣才聽。這里面除了知識(shí)之外,就是一種態(tài)度和交流,這很重要。”陳潤生說。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP