一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)與流程

文檔序號(hào)：42887769發(fā)布日期：2025-08-29 19:36閱讀：15來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)字人，具體而言，涉及一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)。

背景技術(shù)：

1、隨著人工智能和計(jì)算機(jī)圖形學(xué)的發(fā)展，數(shù)字人及智能體交互技術(shù)在多個(gè)領(lǐng)域得到廣泛應(yīng)用，如在線客服、虛擬助手、身份認(rèn)證等。當(dāng)前的技術(shù)架構(gòu)主要依賴于客戶端模式，包括網(wǎng)頁端（h5）和移動(dòng)端（app）兩種交互方式。

2、在網(wǎng)頁端交互方案中，數(shù)字人通?；趙ebrtc或websocket協(xié)議實(shí)現(xiàn)實(shí)時(shí)通信，并依賴?html5?canvas?或webgl進(jìn)行3d模型的渲染。該方案需要云端api提供計(jì)算支持，典型應(yīng)用如電商或客服網(wǎng)頁中的虛擬導(dǎo)購(gòu)功能。然而，由于瀏覽器性能限制，復(fù)雜數(shù)字人的渲染和交互可能面臨延遲和兼容性問題。

3、在移動(dòng)端交互方案中，數(shù)字人通常通過unity或unreal?engine等sdk集成，模型資源需預(yù)先下載并在本地緩存，以提高渲染效率和交互流暢度。此類方案常見于金融類?app的數(shù)字人身份核驗(yàn)場(chǎng)景，但受限于終端硬件性能，可能導(dǎo)致資源占用過高或適配性問題。

4、此外，現(xiàn)有數(shù)字人交互方案的通信鏈路主要基于互聯(lián)網(wǎng)應(yīng)用層協(xié)議（如?sip、rtmp），僅適用于ip網(wǎng)絡(luò)環(huán)境，無法直接與傳統(tǒng)通信網(wǎng)絡(luò)的電路域（cs）或分組域（ps）進(jìn)行對(duì)接，限制了其在電信級(jí)業(yè)務(wù)（如語音通話、短信交互）中的擴(kuò)展應(yīng)用。

5、因此，亟需一種低延遲的、能夠基于傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)的數(shù)字人交互方法。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明解決的問題是如何提供一種低延遲的、能夠基于傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)的數(shù)字人交互方法。

2、為解決上述問題，本發(fā)明提供一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)。

3、第一方面，本發(fā)明提供了一種原生通話過程中的數(shù)字人交互方法，包括：

4、在用戶終端發(fā)起通話呼叫事件時(shí)，核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎；所述數(shù)字人服務(wù)請(qǐng)求至少包括數(shù)字人服務(wù)標(biāo)識(shí)信息，所述數(shù)字人服務(wù)標(biāo)識(shí)信息用于標(biāo)識(shí)所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人服務(wù)類型；

5、所述數(shù)字人引擎響應(yīng)于所述數(shù)字人服務(wù)請(qǐng)求，根據(jù)所述數(shù)字人服務(wù)標(biāo)識(shí)信息加載預(yù)先定制的數(shù)字人模型并將加載的所述數(shù)字人模型發(fā)送至邊緣渲染節(jié)點(diǎn)；

6、所述邊緣渲染節(jié)點(diǎn)用于基于所述數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流至核心網(wǎng)，所述數(shù)字人視頻流和語音流在時(shí)間上同步；

7、所述核心網(wǎng)響應(yīng)于接收到的數(shù)字人視頻流和語音流，與所述用戶終端建立通話，同時(shí)將所述數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端，以在所述用戶終端中顯示能夠進(jìn)行實(shí)時(shí)交互的虛擬數(shù)字人形象。

8、可選地，所述在用戶終端發(fā)起呼叫事件時(shí)，所述核心網(wǎng)基于所述呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎，包括：

9、在所述用戶終端發(fā)起通話呼叫事件時(shí)，所述用戶終端與所述核心網(wǎng)之間建立sip信令通道，所述核心網(wǎng)通過所述sip信令通道接收所述用戶終端發(fā)起的通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容；

10、在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí)，確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎，建立websocket信令通道，所述數(shù)字人引擎通過所述websocket信令通道接收所述數(shù)字人服務(wù)請(qǐng)求。

11、可選地，所述呼叫內(nèi)容至少包括被叫號(hào)碼；在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí)，確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎，包括：

12、所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的被叫號(hào)碼，確定所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型，并根據(jù)所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型確定對(duì)應(yīng)的數(shù)字人引擎；其中，所述被叫號(hào)碼與所述預(yù)設(shè)數(shù)字人服務(wù)類型具有對(duì)應(yīng)的映射關(guān)系。

13、可選地，所述預(yù)設(shè)數(shù)字人服務(wù)類型至少包括：銀行客服數(shù)字人、電商導(dǎo)購(gòu)數(shù)字人和個(gè)人電話助手?jǐn)?shù)字人。

14、可選地，所述邊緣渲染節(jié)點(diǎn)用于基于所述數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流至核心網(wǎng)，包括：

15、所述邊緣渲染節(jié)點(diǎn)將所述數(shù)字人視頻流基于rtp協(xié)議進(jìn)行封裝，將所述語音流基于rtcp協(xié)議進(jìn)行封裝，并將封裝后的所述數(shù)字人視頻流和所述語音流通過媒體通道傳輸至所述核心網(wǎng)。

16、可選地，所述邊緣渲染節(jié)點(diǎn)部署在所述核心網(wǎng)的預(yù)定區(qū)域內(nèi)。

17、可選地，所述將所述數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端之后，還包括：

18、在通話中，所述核心網(wǎng)接收用戶終端發(fā)送的語音指令，將所述語音指令轉(zhuǎn)換為語音數(shù)據(jù)后輸出至所述數(shù)字人引擎；

19、所述數(shù)字人引擎將所述語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)，并基于文本數(shù)據(jù)進(jìn)行意圖分析，確定所述語音數(shù)據(jù)對(duì)應(yīng)的響應(yīng)動(dòng)作指令，將所述響應(yīng)動(dòng)作指令輸出至所述邊緣渲染節(jié)點(diǎn)；

20、所述邊緣渲染節(jié)點(diǎn)基于所述響應(yīng)動(dòng)作指令生成并輸出對(duì)應(yīng)的數(shù)字人視頻流和語音流至所述核心網(wǎng)；

21、所述核心網(wǎng)將所述響應(yīng)動(dòng)作指令對(duì)應(yīng)的數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端，以更新所述用戶終端中顯示的虛擬數(shù)字人形象。

22、第二方面，本發(fā)明提供了一種原生通話過程中的數(shù)字人交互系統(tǒng)，包括：

23、核心網(wǎng)，用于在用戶終端發(fā)起通話呼叫事件時(shí)，基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求；

24、數(shù)字人引擎，響應(yīng)于所述數(shù)字人服務(wù)請(qǐng)求，加載并輸出預(yù)先定制的數(shù)字人模型；

25、邊緣渲染節(jié)點(diǎn)，用于基于所述數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流，所述數(shù)字人視頻流和語音流在時(shí)間上同步；

26、所述核心網(wǎng)，響應(yīng)于接收到的數(shù)字人視頻流和語音流，與所述用戶終端建立通話，同時(shí)將所述數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端，以在所述用戶終端中顯示能夠進(jìn)行實(shí)時(shí)交互的虛擬數(shù)字人形象。

27、可選地，所述在用戶終端發(fā)起通話呼叫事件時(shí)，所述核心網(wǎng)基于所述呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎，包括：

28、在所述用戶終端發(fā)起通話呼叫事件時(shí)，在所述用戶終端與所述核心網(wǎng)之間建立sip信令通道，所述核心網(wǎng)通過所述sip信令通道接收所述用戶終端發(fā)起的通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容；

29、在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí)，確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎，建立websocket信令通道，所述數(shù)字人引擎通過所述websocket信令通道接收所述數(shù)字人服務(wù)請(qǐng)求。

30、可選地，所述呼叫內(nèi)容至少包括被叫號(hào)碼；所述在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí)，確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎，包括：

31、所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的被叫號(hào)碼，確定所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型，并根據(jù)所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型確定對(duì)應(yīng)的數(shù)字人引擎；其中，所述被叫號(hào)碼與所述預(yù)設(shè)數(shù)字人服務(wù)類型具有對(duì)應(yīng)的映射關(guān)系。

32、本發(fā)明的原生通話過程中的數(shù)字人交互方法和系統(tǒng)的有益效果是：在用戶終端發(fā)起通話呼叫事件時(shí)，核心網(wǎng)基于通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎，用戶終端發(fā)起的原生通話呼叫可以直接通過核心網(wǎng)觸發(fā)數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎，無需借助互聯(lián)網(wǎng)網(wǎng)絡(luò)，可直接通過傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)字人服務(wù)請(qǐng)求的觸發(fā)。數(shù)字人引擎響應(yīng)于數(shù)字人服務(wù)請(qǐng)求，加載預(yù)先定制的數(shù)字人模型并將加載的數(shù)字人模型發(fā)送至邊緣渲染節(jié)點(diǎn)，數(shù)字人引擎可根據(jù)數(shù)字人服務(wù)請(qǐng)求加載對(duì)應(yīng)的數(shù)字人模型為后續(xù)數(shù)字人交互提供模型基礎(chǔ)。邊緣渲染節(jié)點(diǎn)用于基于數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流至核心網(wǎng)，數(shù)字人視頻流和語音流在時(shí)間上同步，通過邊緣渲染節(jié)點(diǎn)動(dòng)態(tài)加載與渲染優(yōu)化，實(shí)現(xiàn)毫秒級(jí)數(shù)字人啟動(dòng)與交互，顯著提升用戶體驗(yàn)。核心網(wǎng)響應(yīng)于接收到的數(shù)字人視頻流和語音流，與用戶終端建立通話，同時(shí)將數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端，以在用戶終端中顯示能夠進(jìn)行實(shí)時(shí)交互的虛擬數(shù)字人形象，實(shí)現(xiàn)了低延遲的、能夠基于傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)的數(shù)字人交互方法，通過核心網(wǎng)智能調(diào)度音視頻流，確保用戶終端實(shí)時(shí)呈現(xiàn)高保真、可交互的數(shù)字人形象，提升沉浸式體驗(yàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳星,李韓,廖喬勃,斯雷,梁國(guó)裕,鄒西山
技術(shù)所有人：聯(lián)通沃音樂文化有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲国产福利视频,九色91视频,第一页av,av.www,亚洲有吗在线,国产一级视频在线播放,久草蜜桃

一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)與流程