| 創(chuàng)澤機器人 |
| CHUANGZE ROBOT |
對話式 AI 的核心職責(zé)是聽懂人類講話的內(nèi)容和情感,并以語音對話的方式作出回應(yīng), 然后重復(fù)這個循環(huán)。
當(dāng)前,幾乎所有的J聯(lián)對話式 AI 產(chǎn)品都普遍采用相似的架構(gòu):對話式 AI Agent 服務(wù)部署于云端,協(xié)調(diào)端到端語音對話(Speech-to-Speech)的交互閉環(huán),整體采用 RTC 技術(shù)實現(xiàn)超低延遲雙全工人機對話。支持行業(yè)主流 AI 模型接入,并通過 LLM 函數(shù)調(diào)用或結(jié)構(gòu)化輸 出連接后端系統(tǒng)。
整個循環(huán)流程如下:
◇ 用戶設(shè)備麥克風(fēng)捕獲語音信號,編碼后經(jīng)實時傳輸網(wǎng)絡(luò)傳輸至云端代理程序
◇ 將用戶語音實時轉(zhuǎn)換(ASR)為高準(zhǔn)確率的文字,作為 LLM 的輸入
◇ 文本被整合為上下文提示(Prompt),由大語言模型(LLM) 進(jìn)行推理生成響應(yīng)。
◇ LLM 生成的文本發(fā)送至文本轉(zhuǎn)語音(TTS) 模型合成音頻
◇ 合成音頻通過實時傳輸網(wǎng)絡(luò)傳回用戶設(shè)備完成交互
對話式 AI 的整個服務(wù)全部在云端運行,包括 ASR、LLM 和 TTS。從長遠(yuǎn)來看,人們期望 有更多的 AI 服務(wù)可以在端側(cè)運行,但云端仍是未來很長一段時間的Z佳方案。
◇ 對話式 AI 程序需調(diào)用高性能模型(ASR、LLM、TTS)以實現(xiàn)低延遲的復(fù)雜流程。當(dāng) 前終端設(shè)備算力不足,無法在可接受延遲內(nèi)運行Z優(yōu)模型。
◇ 當(dāng)前,仍有大量商用場景用戶是需要通過電話進(jìn)行呼叫的,在此類場景中,服務(wù)無 法部署到用戶的終端設(shè)備上,也迫使服務(wù)集中于云端。
◇ 對話式 AI 需要跨終端使用,也導(dǎo)致云端部署成為Z高效的方案。
如果你正在開發(fā)一個對話式 AI 產(chǎn)品或應(yīng)用,你可能已經(jīng)發(fā)現(xiàn)對話式 AI 并沒有想象中的 簡單,我們會面臨并思考以下問題:
◇ 對話式 AI 該選擇哪些大語言模型和 TTS?
◇ 如何降低人機對話的端到端延遲?
◇ 如何讓 AI 對話與人類一樣自然?
◇ 如何在長會話中管理對話上下文?
◇ 如何將對話式 AI 集成到現(xiàn)有應(yīng)用中?
◇ 如何評估對話式 AI 的性能表現(xiàn)?
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務(wù)機器人底盤 具身智能教育機器人 智能配送機器人 導(dǎo)覽機器人 |