亚洲国产福利视频,九色91视频,第一页av,av.www,亚洲有吗在线,国产一级视频在线播放,久草蜜桃

一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)與流程

文檔序號(hào):42887769發(fā)布日期:2025-08-29 19:36閱讀:15來源:國(guó)知局

本發(fā)明涉及數(shù)字人,具體而言,涉及一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)。


背景技術(shù):

1、隨著人工智能和計(jì)算機(jī)圖形學(xué)的發(fā)展,數(shù)字人及智能體交互技術(shù)在多個(gè)領(lǐng)域得到廣泛應(yīng)用,如在線客服、虛擬助手、身份認(rèn)證等。當(dāng)前的技術(shù)架構(gòu)主要依賴于客戶端模式,包括網(wǎng)頁端(h5)和移動(dòng)端(app)兩種交互方式。

2、在網(wǎng)頁端交互方案中,數(shù)字人通?;趙ebrtc或websocket協(xié)議實(shí)現(xiàn)實(shí)時(shí)通信,并依賴?html5?canvas?或webgl進(jìn)行3d模型的渲染。該方案需要云端api提供計(jì)算支持,典型應(yīng)用如電商或客服網(wǎng)頁中的虛擬導(dǎo)購(gòu)功能。然而,由于瀏覽器性能限制,復(fù)雜數(shù)字人的渲染和交互可能面臨延遲和兼容性問題。

3、在移動(dòng)端交互方案中,數(shù)字人通常通過unity或unreal?engine等sdk集成,模型資源需預(yù)先下載并在本地緩存,以提高渲染效率和交互流暢度。此類方案常見于金融類?app的數(shù)字人身份核驗(yàn)場(chǎng)景,但受限于終端硬件性能,可能導(dǎo)致資源占用過高或適配性問題。

4、此外,現(xiàn)有數(shù)字人交互方案的通信鏈路主要基于互聯(lián)網(wǎng)應(yīng)用層協(xié)議(如?sip、rtmp),僅適用于ip網(wǎng)絡(luò)環(huán)境,無法直接與傳統(tǒng)通信網(wǎng)絡(luò)的電路域(cs)或分組域(ps)進(jìn)行對(duì)接,限制了其在電信級(jí)業(yè)務(wù)(如語音通話、短信交互)中的擴(kuò)展應(yīng)用。

5、因此,亟需一種低延遲的、能夠基于傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)的數(shù)字人交互方法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明解決的問題是如何提供一種低延遲的、能夠基于傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)的數(shù)字人交互方法。

2、為解決上述問題,本發(fā)明提供一種原生通話過程中的數(shù)字人交互方法和系統(tǒng)。

3、第一方面,本發(fā)明提供了一種原生通話過程中的數(shù)字人交互方法,包括:

4、在用戶終端發(fā)起通話呼叫事件時(shí),核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎;所述數(shù)字人服務(wù)請(qǐng)求至少包括數(shù)字人服務(wù)標(biāo)識(shí)信息,所述數(shù)字人服務(wù)標(biāo)識(shí)信息用于標(biāo)識(shí)所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人服務(wù)類型;

5、所述數(shù)字人引擎響應(yīng)于所述數(shù)字人服務(wù)請(qǐng)求,根據(jù)所述數(shù)字人服務(wù)標(biāo)識(shí)信息加載預(yù)先定制的數(shù)字人模型并將加載的所述數(shù)字人模型發(fā)送至邊緣渲染節(jié)點(diǎn);

6、所述邊緣渲染節(jié)點(diǎn)用于基于所述數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流至核心網(wǎng),所述數(shù)字人視頻流和語音流在時(shí)間上同步;

7、所述核心網(wǎng)響應(yīng)于接收到的數(shù)字人視頻流和語音流,與所述用戶終端建立通話,同時(shí)將所述數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端,以在所述用戶終端中顯示能夠進(jìn)行實(shí)時(shí)交互的虛擬數(shù)字人形象。

8、可選地,所述在用戶終端發(fā)起呼叫事件時(shí),所述核心網(wǎng)基于所述呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎,包括:

9、在所述用戶終端發(fā)起通話呼叫事件時(shí),所述用戶終端與所述核心網(wǎng)之間建立sip信令通道,所述核心網(wǎng)通過所述sip信令通道接收所述用戶終端發(fā)起的通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容;

10、在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí),確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎,建立websocket信令通道,所述數(shù)字人引擎通過所述websocket信令通道接收所述數(shù)字人服務(wù)請(qǐng)求。

11、可選地,所述呼叫內(nèi)容至少包括被叫號(hào)碼;在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí),確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎,包括:

12、所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的被叫號(hào)碼,確定所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型,并根據(jù)所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型確定對(duì)應(yīng)的數(shù)字人引擎;其中,所述被叫號(hào)碼與所述預(yù)設(shè)數(shù)字人服務(wù)類型具有對(duì)應(yīng)的映射關(guān)系。

13、可選地,所述預(yù)設(shè)數(shù)字人服務(wù)類型至少包括:銀行客服數(shù)字人、電商導(dǎo)購(gòu)數(shù)字人和個(gè)人電話助手?jǐn)?shù)字人。

14、可選地,所述邊緣渲染節(jié)點(diǎn)用于基于所述數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流至核心網(wǎng),包括:

15、所述邊緣渲染節(jié)點(diǎn)將所述數(shù)字人視頻流基于rtp協(xié)議進(jìn)行封裝,將所述語音流基于rtcp協(xié)議進(jìn)行封裝,并將封裝后的所述數(shù)字人視頻流和所述語音流通過媒體通道傳輸至所述核心網(wǎng)。

16、可選地,所述邊緣渲染節(jié)點(diǎn)部署在所述核心網(wǎng)的預(yù)定區(qū)域內(nèi)。

17、可選地,所述將所述數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端之后,還包括:

18、在通話中,所述核心網(wǎng)接收用戶終端發(fā)送的語音指令,將所述語音指令轉(zhuǎn)換為語音數(shù)據(jù)后輸出至所述數(shù)字人引擎;

19、所述數(shù)字人引擎將所述語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),并基于文本數(shù)據(jù)進(jìn)行意圖分析,確定所述語音數(shù)據(jù)對(duì)應(yīng)的響應(yīng)動(dòng)作指令,將所述響應(yīng)動(dòng)作指令輸出至所述邊緣渲染節(jié)點(diǎn);

20、所述邊緣渲染節(jié)點(diǎn)基于所述響應(yīng)動(dòng)作指令生成并輸出對(duì)應(yīng)的數(shù)字人視頻流和語音流至所述核心網(wǎng);

21、所述核心網(wǎng)將所述響應(yīng)動(dòng)作指令對(duì)應(yīng)的數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端,以更新所述用戶終端中顯示的虛擬數(shù)字人形象。

22、第二方面,本發(fā)明提供了一種原生通話過程中的數(shù)字人交互系統(tǒng),包括:

23、核心網(wǎng),用于在用戶終端發(fā)起通話呼叫事件時(shí),基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求;

24、數(shù)字人引擎,響應(yīng)于所述數(shù)字人服務(wù)請(qǐng)求,加載并輸出預(yù)先定制的數(shù)字人模型;

25、邊緣渲染節(jié)點(diǎn),用于基于所述數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流,所述數(shù)字人視頻流和語音流在時(shí)間上同步;

26、所述核心網(wǎng),響應(yīng)于接收到的數(shù)字人視頻流和語音流,與所述用戶終端建立通話,同時(shí)將所述數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端,以在所述用戶終端中顯示能夠進(jìn)行實(shí)時(shí)交互的虛擬數(shù)字人形象。

27、可選地,所述在用戶終端發(fā)起通話呼叫事件時(shí),所述核心網(wǎng)基于所述呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎,包括:

28、在所述用戶終端發(fā)起通話呼叫事件時(shí),在所述用戶終端與所述核心網(wǎng)之間建立sip信令通道,所述核心網(wǎng)通過所述sip信令通道接收所述用戶終端發(fā)起的通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容;

29、在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí),確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎,建立websocket信令通道,所述數(shù)字人引擎通過所述websocket信令通道接收所述數(shù)字人服務(wù)請(qǐng)求。

30、可選地,所述呼叫內(nèi)容至少包括被叫號(hào)碼;所述在所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容識(shí)別到需要數(shù)字人服務(wù)時(shí),確定所述呼叫內(nèi)容對(duì)應(yīng)的數(shù)字人引擎,包括:

31、所述核心網(wǎng)基于所述通話呼叫事件對(duì)應(yīng)的被叫號(hào)碼,確定所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型,并根據(jù)所述被叫號(hào)碼對(duì)應(yīng)的預(yù)設(shè)數(shù)字人服務(wù)類型確定對(duì)應(yīng)的數(shù)字人引擎;其中,所述被叫號(hào)碼與所述預(yù)設(shè)數(shù)字人服務(wù)類型具有對(duì)應(yīng)的映射關(guān)系。

32、本發(fā)明的原生通話過程中的數(shù)字人交互方法和系統(tǒng)的有益效果是:在用戶終端發(fā)起通話呼叫事件時(shí),核心網(wǎng)基于通話呼叫事件對(duì)應(yīng)的呼叫內(nèi)容生成并輸出數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎,用戶終端發(fā)起的原生通話呼叫可以直接通過核心網(wǎng)觸發(fā)數(shù)字人服務(wù)請(qǐng)求至數(shù)字人引擎,無需借助互聯(lián)網(wǎng)網(wǎng)絡(luò),可直接通過傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)字人服務(wù)請(qǐng)求的觸發(fā)。數(shù)字人引擎響應(yīng)于數(shù)字人服務(wù)請(qǐng)求,加載預(yù)先定制的數(shù)字人模型并將加載的數(shù)字人模型發(fā)送至邊緣渲染節(jié)點(diǎn),數(shù)字人引擎可根據(jù)數(shù)字人服務(wù)請(qǐng)求加載對(duì)應(yīng)的數(shù)字人模型為后續(xù)數(shù)字人交互提供模型基礎(chǔ)。邊緣渲染節(jié)點(diǎn)用于基于數(shù)字人模型生成并輸出數(shù)字人視頻流和語音流至核心網(wǎng),數(shù)字人視頻流和語音流在時(shí)間上同步,通過邊緣渲染節(jié)點(diǎn)動(dòng)態(tài)加載與渲染優(yōu)化,實(shí)現(xiàn)毫秒級(jí)數(shù)字人啟動(dòng)與交互,顯著提升用戶體驗(yàn)。核心網(wǎng)響應(yīng)于接收到的數(shù)字人視頻流和語音流,與用戶終端建立通話,同時(shí)將數(shù)字人視頻流和語音流轉(zhuǎn)發(fā)至用戶終端,以在用戶終端中顯示能夠進(jìn)行實(shí)時(shí)交互的虛擬數(shù)字人形象,實(shí)現(xiàn)了低延遲的、能夠基于傳統(tǒng)通信網(wǎng)絡(luò)實(shí)現(xiàn)的數(shù)字人交互方法,通過核心網(wǎng)智能調(diào)度音視頻流,確保用戶終端實(shí)時(shí)呈現(xiàn)高保真、可交互的數(shù)字人形象,提升沉浸式體驗(yàn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1