華泰證券:新版ChatGPT落地 大模型嚮智能終端側部署是模型應用的重要方嚮之一
2023-09-27 07:56匯商財經

華泰證券發佈研究報告稱,大模型嚮智能終端側部署是模型應用的重要方嚮之一。從OpenAI官方介紹視頻和文檔看,多模態ChatGPT已能夠較為全面的覆蓋用戶的生活和工作場景。未來隨著模型多模態能力的叠代完善,或能賦能機器人、汽車等更加復雜的智能終端,AGI更進一步。

華泰證券主要觀點如下:

新版ChatGPT:落地語音對話和識圖功能

9月25日,OpenAI官宣即將在ChatGPT中推出語音和多模態功能,支持用戶直接與ChatGPT進行語音對話和多模態圖像問答。未來兩周,新功能將嚮ChatGPT Plus和Enterprise用戶開放,其中語音對話(需開啟設置)將在手機的iOS和Android客戶端推出,識圖功能將面嚮包含網頁端的所有平臺。OpenAI在3月提出的GPT-4多模態識圖能力正式落地。安全性上,OpenAI通過Red Team測試模型在極端主義和科學領域的風險,且拒絕對圖片中的人進行分析,從而實現負責任的AI。完整版的多模態ChatGPT將在手機端率先實現,或將開啟智能終端時代。

情理之中:復盤OpenAI的多模態之路

3月14日,OpenAI官宣GPT-4,併在演示和技術報告中展示了多模態識圖能力(僅展示了單圖識別)。9月18日,據The Information信息,出於視覺功能可能被不良利用等安全原因,多模態功能早期僅嚮Be My Eyes公司提供,近期OpenAI正准備將其廣泛推出。9月25日,OpenAI官宣驗證了該信息。值得註意的是,The Information還指出OpenAI正在訓練新的多模態模型Gobi來抗衡Google即將推出的多模態模型Gemini,而本次的GPT-4V(ison)併非多模態的Gobi模型。此外,5月18日,ChatGPT iOS發佈時,已支持語音多模態,即Whisper語音轉文本輸入。

意料之外:多圖識別、聚焦分析和語音對話

結合官方發佈的視頻和博客,該行總結了新版ChatGPT超預期的多模態能力:1)支持用戶同時上傳多張圖像,併以自然語言的方式提問,ChatGPT將結合文字與圖像多模態進行理解和回答,幫助用戶分析日常生活中的問題和工作中的圖錶等復雜數據。2)ChatGPT手機App內置了繪圖工具,支持用戶標註圖像中的具體對象,讓ChatGPT聚焦性的推理作答。3)賦予了ChatGPT語音輸出能力,結合之前已集成的Whisper語音識別能力,實現了ChatGPT和用戶的完整語音對話,併支持5種音色。

技術解析:語音新模型+多模態湧現能力

語音模態,語音輸出功能基於新的文本到語音模型,能夠從文本和樣本語音中生成人類音頻。圖像模態,OpenAI公開了GPT-4V的system card:1)GPT-4V於2022年訓練完成。2)GPT-4V訓練方式與GPT-4相同,先使用互聯網圖像和文本數據進行混合預訓練,來預測下一個單詞;然後通過InstructGPT沿用至今的RLHF(基於人類反饋的強化學習)技術來用額外數據對模型進行微調,實現與人類的對齊。3)在文本和圖像多模態的混合,以及大規模模型提供的智能和推理能力下,模型能夠湧現新的能力。

未來佈局:多模態ChatGPT開啟智能終端時代,AGI更進一步

該行認為,大模型嚮智能終端側部署是模型應用的重要方嚮之一。本次ChatGPT更新,完整的語音和多模態識圖能力率先在手機端實現,而PC端的語音功能將被延後,智能終端對多模態的支持能力優勢開始顯現。從OpenAI官方介紹視頻和文檔看,多模態ChatGPT已能夠較為全面的覆蓋用戶的生活和工作場景。未來隨著模型多模態能力的叠代完善,或能賦能機器人、汽車等更加復雜的智能終端,AGI更進一步。

風險提示:宏觀經濟波動,技術進步不及預期。本報告內容均基於客觀信息整理,不構成投資建議。

写评论
最新评论
匯商
财经新闻