音視頻物聯網已經來了嗎?音視頻物聯網的場景應用有哪些?音視頻物聯網又蘊藏著哪些機會?......
在剛剛過去的RTE 2022第八屆實時互聯網大會上,聲網IoT行業產品負責人侯云憶帶來了題為《無遠弗屆 音視頻物聯網的進與浸》的分享,為行業帶來了一些全新的思考。
音視頻物聯網風口已來
從2020年開始,全球物聯網設備已經連續3年超過移動互聯網,中國的物聯網設備更是突破百億,且趨勢不可逆。同時隨著5G能力的普及,智能家居、3D高清視頻、AR/VR、自動駕駛等超高清、沉浸式的場景已是行業共識的發展趨勢,這也是網絡帶寬、應急算力和數據密度等技術提升所帶來的場景拐點。
另外,從連接和交互的視角來看,整個音視頻物聯網的演進可以分為三個階段。

第一階段,視聽上云,解決的是信息連接和數據上云。數據在線化可以做到事后分析、回述、查看。以傳統安防為代表的慢直播時代為例,其以RTMP、RTSP協議為主,通信時延在2-5s之間。
第二階段,即時連接,這階段是以傳統的P2P穿透技術為主,可以做到及時或實時連接,時延在1-2秒。這個階段可以及時預覽和能聽能看,但卻是以單向為主,不能稱之為真正的互動。
第三階段,音視頻設備的實時互動,它可以做到人和人、人和物的實時、多人、跨端等任意規模的互動,這也是真正Internet of Things技術。這其中,聲網所引領的實時互動標準就把全球端到端時延控制在了400ms之內。
技術不斷發展的同時,很多場景也開始落地。
其一,可視門鎖成了爆品。在今年秋季發布會上,國內巨頭華為和小米都分別重點推出了智能視頻門鎖,視頻通話成了門鎖的標配。相關數據也顯示,視頻通話在智能門鎖領域的滲透率已經超過了40%。尤其是今年華為秋季發布會上主打的分布式可視貓眼功能,用戶可以在手機、智慧屏、畫中畫等任意終端進行隨時查看,這說明智能門鎖已經從過去的單品智能走向了生態平臺,并在萬物互聯領域實踐和落地。
其二,遠程陪伴產品興起。隨著硬件感知能力的精細化演進,更多通用硬件平臺開始圍繞幼寵細分品類深耕,并針對用戶的情感訴求開發新品。亞馬遜Astro機器人就升級了寵物管家功能,并兼容智能視頻門鈴服務和語音交互,當主人不在家的時候,其可以作為寵物管家來記錄寵物的日常,主人也可以遠程實時地查看與對話。從單向的能看能聽、到遠程控制和互動,同樣對技術需求和音視頻體驗有了新的技術高度要求。
其三,在2B產業場景中,機器人解決方案公司Carbon Origins宣布將在CS 2022展示送貨機器人和VR遠程監督的巡演方案,并已經開始招聘VR司機。它的方案是無人配送車操控人員可以佩戴VR眼鏡進行沉浸式遠程控制,當智能小車在AI不工作或者復雜路段時進行人工干預。
可以預見,音視頻物聯網風口已來,實時音視頻已經成為智能硬件設備提升用戶互動性的“標配“。
作為實時互動領域的引領者,在過去一年中,聲網也與行業伙伴一起落地了諸多場景。第一類是經典IPC設備,用戶體驗通過實時音視頻(RTC)技術得到增強。在同樣的硬件設備下,更高質量和保障的音視頻體驗,不僅為設備服務帶來升級,也能幫助品牌客戶在硬件設備板塊從價格廝殺走向了服務提升。

第二類是軟件服務驅動用戶黏性的細分場景,實時音視頻服務幫助像嬰兒、寵物、老人陪伴等產品實現了設備即服務的業務邏輯。
第三類是無處不在,隨著視覺交互的成熟,攝像頭讓任何設備都被加上了“眼睛、耳朵”的功能。以某個頭部掃地機器人為例,因設備增加了視頻管家和雙向語音能力,讓其整體溢價20%-30%。
除了消費品類外,在生產力變革中,實時音視頻也在不斷改變著工作方式和效能。如無人機廠商使用RTC直播,在應急消防救災、農民電力巡檢等場景中做到實時遠程指揮和調度。在面向礦車、無人執勤等場景中,實時音視頻不僅釋放了生產力,也讓人力和安全都得到了釋放。
隨著實時互動在物聯網設備中的逐漸滲透, 實時互動(RTE)和IoT的融合成為了有共識的未來賽道,在艾瑞發布《音視頻行業白皮書》中,也首次出現了IoT行業解決方案的賽道。但正是由于物聯網行業玩家較多,所以整個生態也存在著一定的割裂,場景分散依然是行業痛點。在物聯網實時互動的標準上,聲網加入了國內版的Meta開放智能聯盟OLA,并作為音視頻小組發起方,積極推動音視頻設備互聯互通標準方案的落地。除此之外,聲網還和信通院泰爾實驗室聯合建立了音視頻評測標準,并且將智能硬件中門鈴門鎖場景作為創新品類推動評測標準。

“從體驗來說,互動從過去的準實時走向真實時;從技術來說,過去只有音視頻,現在可以做到更多媒體的沉浸式交互;從場景來說,消費物聯網逐漸滲透到產業物聯網,行業從面向連接走向面向服務。在2B端,從生產關系連接邁入了生產力的變革,整個產業格局上也從生態割裂到標準初現。”侯云憶表示。
場景升級
為全品類音視頻設備打造高質量互動體驗
針對行業的趨勢變化,聲網也在不斷地升級IoT全景解決方案。面向穿戴、家居和出行等多個音視頻設備品類,依托聲網的SD-RTN™大網,為智能硬件提供高可靠、低延時音視頻流媒體和可靠信令消息能力,開發者可以使用聲網SDK輕松實現視頻通話、遠程協作、遠程控制、緊急呼叫等功能。

在面向消防安防和民用安防監控場景中,聲網提供的實時互動能力,不僅可以滿足監控類設備更快、更流暢地實現實時視頻和語音雙講能力,還能為這類設備提供視頻呼叫、告警消息和事件錄制等能力。除了經典IPC之外,聲網的IoT解決方案還覆蓋了門鈴、門鎖、家庭服務機器人、掃地機器人等品類,也衍生到了社區樓宇對講、電梯對講等這類設備,能幫助這些場景的功能體驗達到99.9%的高連通率,毫秒級的秒開出圖,400ms端到端時延和極低資源占用,能讓SDK在侵入式設備中保持高性價比的體驗,同時覆蓋包括WiFi和4G設備的跨平臺兼容和互通性,低延時的遠程控制通道能力,讓設備真正做到不止于看,還能夠及時地操控和反饋。

面向車載終端,聲網的IoT解決方案可以提供哨兵模式、自動泊車、語音播客功能;面向B端的無人車,提供遠程監控、遠程駕駛和語音客服功能。在能力迭代和技術高度上,該解決方案符合這類場景中更為關注的高清多路視頻、超低延時遠程監控、以及戶外網絡情況下是否可以提供更可靠以及抗弱網的能力,保障出行場景當中有流暢的互動體驗。
在XR場景中,更多的是音視頻對人、場景、物的重構,數據傳輸種類和同步數據形式也更加地豐富。虛擬空間中,通過音視頻通訊、空間音頻和結構化數據對虛擬人動作進行同步,實現在虛擬空間中的沉浸互動體驗;全息投影場景下,通過點勻數據和深入信息多個視頻流傳輸和融合,去實現全息影像還原,同時通過跨端交互,讓XR設備和非XR設備做到互聯互通。
技術升級
突破硬件、平臺和技術的限制
圍繞著以上這些典型場景,致力于更高效、更真實地還原互動體驗,聲網IoT解決方案做到了在硬件、平臺和技術上的突破,并推出了靈隼物聯網云平臺。

聲網靈隼物聯網云平臺是專門為音視頻智能硬件一站式開放而生的一個端到端、低代碼平臺。該平臺有三大優勢:一是面向開發者提供更低開發門檻體驗,覆蓋從寬帶流媒體到窄帶消息全鏈路的連接;二是站在終端用戶視角,提供更加流暢的視聽體驗,擁有小于1秒最快出圖和行業領先的較低資源消耗,能夠做到低時延、快出圖;三是面向產業生態提供更加開放的環境,給上游芯片硬件和軟件服務,以及方案集成商等上下游產業帶來更多的空間。

硬件上,面向不同硬件應用場景,聲網的IoT解決方案深度適配了不同的音視頻芯片,圍繞產品和平臺不斷拓展一體化的方案,幫助開發者降低集成門檻。如面向無人車、機器人場景,適配英偉達Jetson系列;和紫光展銳平臺進行合作,面向兒童手表、功能機和可視穿戴,提供小包體、低功耗的解決方案;基于樂鑫ESP32-S3的合作視覺品類方案,可用在門鈴門鎖和低功耗視覺產品當中。
過去,硬件能力的上限決定了用戶體驗的上限,而成本和性能一直是技術層面需要突破的難題。以智能攝像頭為例,聲網的解決方案是在音頻這一塊提供嵌入式平臺軟3A能力,通過聲網自研語音引擎自適應各類環境全面消除回聲,提供超一流的雙講表現,可以在不損失音質的情況下消除各類噪音,最大程度保障音頻質量。嵌入式算法方案也能夠兼容相對廣泛的平臺,并保持極低的資源占用。
在視頻方面,超分效果和自適應能力優于傳統算法??蛻舳丝梢圆捎寐暰W自研深度學習的超分算法,做到1.5倍、2倍和3倍移動端的實時超分。在不增加任何硬件和語音端資源成本的前提下,不僅可以提升用戶體驗,還能通過軟件和端云協同算法組合,幫助開發者帶來更多場景的優異體驗和豐富的玩法。

事實上,聲網目前已經是一個在RTC領域覆蓋終端和場景最全的行業玩家,在IoT賽道發展過程中,也在不斷地打破平臺的限制,做到真正跨終端、跨平臺的全面互通和萬物互聯。從主流的Android系統到Linux系統,甚至像Harmony、FreeRTOS、AilOS等小平臺都做了全面覆蓋和深度適配。今年聲網也豐富了設備以及不同媒體形式和Native、Web、小程序的互通。以海外智能音響為例,通過Web RTC開放協議支持,落地了amazon alexa和Google assistant的互通,幫助出海和海外用戶能夠在智能家居場景當中,輕松和聲網設備互聯,這個解決方案也適用于拓展任意標準Web RTC的開放平臺。

此外,在面向以無人車、機器人為代表一些智能設備遠程運維、人工接管和遠程控制場景,聲網推出超低延時平行駕駛和平行控制方案。針對于同城遠程控制,聲網解決方案通過標記優先級優化路由調度策略和同節點轉化方式,保障該場景下的延時傳輸質量。同時還結合了多運營商物聯網卡場景下,通過Multipath多路徑融合的技術,保證網絡質量的可用性和弱網對抗能力。實測數據顯示,從無人駕駛車輛攝像頭畫面采集,到遠程控制臺顯示,聲網能做實時音視頻端到端時延最低百毫秒內,5G公網平均160ms;可靠信令可以做到端到端25ms之內,5G公網平均50ms,可以保障低速自動駕駛車輛在30公里時速下,擁有相對可靠、安全和高效沉浸式的體驗,來完成所有的遠程作業。

