華泰證券：新版ChatGPT落地大模型嚮智能終端側部署是模型應用的重要方嚮之一_匯商分析師之家

華泰證券：新版ChatGPT落地大模型嚮智能終端側部署是模型應用的重要方嚮之一

2023-09-27 07:56匯商財經

華泰證券發佈研究報告稱，大模型嚮智能終端側部署是模型應用的重要方嚮之一。從OpenAI官方介紹視頻和文檔看，多模態ChatGPT已能夠較為全面的覆蓋用戶的生活和工作場景。未來隨著模型多模態能力的叠代完善，或能賦能機器人、汽車等更加復雜的智能終端，AGI更進一步。

華泰證券主要觀點如下：

新版ChatGPT：落地語音對話和識圖功能

9月25日，OpenAI官宣即將在ChatGPT中推出語音和多模態功能，支持用戶直接與ChatGPT進行語音對話和多模態圖像問答。未來兩周，新功能將嚮ChatGPT Plus和Enterprise用戶開放，其中語音對話(需開啟設置)將在手機的iOS和Android客戶端推出，識圖功能將面嚮包含網頁端的所有平臺。OpenAI在3月提出的GPT-4多模態識圖能力正式落地。安全性上，OpenAI通過Red Team測試模型在極端主義和科學領域的風險，且拒絕對圖片中的人進行分析，從而實現負責任的AI。完整版的多模態ChatGPT將在手機端率先實現，或將開啟智能終端時代。

情理之中：復盤OpenAI的多模態之路

3月14日，OpenAI官宣GPT-4，併在演示和技術報告中展示了多模態識圖能力(僅展示了單圖識別)。9月18日，據The Information信息，出於視覺功能可能被不良利用等安全原因，多模態功能早期僅嚮Be My Eyes公司提供，近期OpenAI正准備將其廣泛推出。9月25日，OpenAI官宣驗證了該信息。值得註意的是，The Information還指出OpenAI正在訓練新的多模態模型Gobi來抗衡Google即將推出的多模態模型Gemini，而本次的GPT-4V(ison)併非多模態的Gobi模型。此外，5月18日，ChatGPT iOS發佈時，已支持語音多模態，即Whisper語音轉文本輸入。

意料之外：多圖識別、聚焦分析和語音對話

結合官方發佈的視頻和博客，該行總結了新版ChatGPT超預期的多模態能力：1)支持用戶同時上傳多張圖像，併以自然語言的方式提問，ChatGPT將結合文字與圖像多模態進行理解和回答，幫助用戶分析日常生活中的問題和工作中的圖錶等復雜數據。2)ChatGPT手機App內置了繪圖工具，支持用戶標註圖像中的具體對象，讓ChatGPT聚焦性的推理作答。3)賦予了ChatGPT語音輸出能力，結合之前已集成的Whisper語音識別能力，實現了ChatGPT和用戶的完整語音對話，併支持5種音色。

技術解析：語音新模型+多模態湧現能力

語音模態，語音輸出功能基於新的文本到語音模型，能夠從文本和樣本語音中生成人類音頻。圖像模態，OpenAI公開了GPT-4V的system card：1)GPT-4V於2022年訓練完成。2)GPT-4V訓練方式與GPT-4相同，先使用互聯網圖像和文本數據進行混合預訓練，來預測下一個單詞;然後通過InstructGPT沿用至今的RLHF(基於人類反饋的強化學習)技術來用額外數據對模型進行微調，實現與人類的對齊。3)在文本和圖像多模態的混合，以及大規模模型提供的智能和推理能力下，模型能夠湧現新的能力。

未來佈局：多模態ChatGPT開啟智能終端時代，AGI更進一步

該行認為，大模型嚮智能終端側部署是模型應用的重要方嚮之一。本次ChatGPT更新，完整的語音和多模態識圖能力率先在手機端實現，而PC端的語音功能將被延後，智能終端對多模態的支持能力優勢開始顯現。從OpenAI官方介紹視頻和文檔看，多模態ChatGPT已能夠較為全面的覆蓋用戶的生活和工作場景。未來隨著模型多模態能力的叠代完善，或能賦能機器人、汽車等更加復雜的智能終端，AGI更進一步。

風險提示：宏觀經濟波動，技術進步不及預期。本報告內容均基於客觀信息整理，不構成投資建議。