| 創(chuàng )澤機器人 |
| CHUANGZE ROBOT |
對話(huà)式 AI 的核心職責是聽(tīng)懂人類(lèi)講話(huà)的內容和情感,并以語(yǔ)音對話(huà)的方式作出回應, 然后重復這個(gè)循環(huán)。
當前,幾乎所有的J聯(lián)對話(huà)式 AI 產(chǎn)品都普遍采用相似的架構:對話(huà)式 AI Agent 服務(wù)部署于云端,協(xié)調端到端語(yǔ)音對話(huà)(Speech-to-Speech)的交互閉環(huán),整體采用 RTC 技術(shù)實(shí)現超低延遲雙全工人機對話(huà)。支持行業(yè)主流 AI 模型接入,并通過(guò) LLM 函數調用或結構化輸 出連接后端系統。
整個(gè)循環(huán)流程如下:
◇ 用戶(hù)設備麥克風(fēng)捕獲語(yǔ)音信號,編碼后經(jīng)實(shí)時(shí)傳輸網(wǎng)絡(luò )傳輸至云端代理程序
◇ 將用戶(hù)語(yǔ)音實(shí)時(shí)轉換(ASR)為高準確率的文字,作為 LLM 的輸入
◇ 文本被整合為上下文提示(Prompt),由大語(yǔ)言模型(LLM) 進(jìn)行推理生成響應。
◇ LLM 生成的文本發(fā)送至文本轉語(yǔ)音(TTS) 模型合成音頻
◇ 合成音頻通過(guò)實(shí)時(shí)傳輸網(wǎng)絡(luò )傳回用戶(hù)設備完成交互
對話(huà)式 AI 的整個(gè)服務(wù)全部在云端運行,包括 ASR、LLM 和 TTS。從長(cháng)遠來(lái)看,人們期望 有更多的 AI 服務(wù)可以在端側運行,但云端仍是未來(lái)很長(cháng)一段時(shí)間的Z佳方案。
◇ 對話(huà)式 AI 程序需調用高性能模型(ASR、LLM、TTS)以實(shí)現低延遲的復雜流程。當 前終端設備算力不足,無(wú)法在可接受延遲內運行Z優(yōu)模型。
◇ 當前,仍有大量商用場(chǎng)景用戶(hù)是需要通過(guò)電話(huà)進(jìn)行呼叫的,在此類(lèi)場(chǎng)景中,服務(wù)無(wú) 法部署到用戶(hù)的終端設備上,也迫使服務(wù)集中于云端。
◇ 對話(huà)式 AI 需要跨終端使用,也導致云端部署成為Z高效的方案。
如果你正在開(kāi)發(fā)一個(gè)對話(huà)式 AI 產(chǎn)品或應用,你可能已經(jīng)發(fā)現對話(huà)式 AI 并沒(méi)有想象中的 簡(jiǎn)單,我們會(huì )面臨并思考以下問(wèn)題:
◇ 對話(huà)式 AI 該選擇哪些大語(yǔ)言模型和 TTS?
◇ 如何降低人機對話(huà)的端到端延遲?
◇ 如何讓 AI 對話(huà)與人類(lèi)一樣自然?
◇ 如何在長(cháng)會(huì )話(huà)中管理對話(huà)上下文?
◇ 如何將對話(huà)式 AI 集成到現有應用中?
◇ 如何評估對話(huà)式 AI 的性能表現?
![]() |
| 機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務(wù)機器人底盤(pán) 具身智能教育機器人 智能配送機器人 導覽機器人 |