在前不久的上海外灘大會上,螞蟻集團資深技術專家林峰分享了企業級數據可視化應用的機遇與挑戰,以及螞蟻是如何實踐的,我們將內容整理出來與大家分享。

大家好,很榮幸有機會能在這給大家做個分享,今天準備的主題叫做“企業級數據可視化應用的機遇與挑戰”,偏向于設計體驗和工程實現,主要來自于過去這些年自己在這個領域內的一些實踐體會和思考,希望作為引子能給大家帶來一點靈感或啟發。
AntV 是螞蟻集團的數據可視化解決方案,甚至可以說是整個阿里數據可視化的基礎設施,從15年發起至今已經迭代了5年,支撐著集團內外2萬+企業級應用。在這些年里我們也走過彎路,踩過很多坑,也逐漸看到些這個領域未來的趨勢,所以會有今天想跟大家分享一些我們的實踐和思考。
企業級應用為什么需要數據可視化
對于這個問題,在我看來最主要是兩方面的原因,第一方面是因為企業級數據的特征,在當下,我們的身邊,IoT 設備,云上無時無刻不在高速的產生著海量的數據,不僅是數字、文本還有各種各樣的圖片、音視頻,這些數據內還蘊含著復雜的多維交叉、時序關系、空間信息等等,互聯網企業無一例外,都需要挖掘這些數據做經營決策分析,產品改進等等,但在這快速海量多樣價值稀疏的數據中萃取價值的難度不亞于淘金。
而另一方面,數據可視化對我們來說恰好是一個不錯的淘金工具。我想主要有三點:
第一點是圖形圖像識別是人類本能,我們知道阿拉伯數字在1200年前后才被廣泛使用,中國的甲骨文數字出現在公元前1600年,世界上最早的楔形文字大概出現在公元前3000年,而最早的洞穴壁畫在4萬年前就有了,人類習慣用圖形圖案去表達比用文本、數字早了4萬年,科學的實驗證明我們對圖形圖案的處理速度比文本、數字高出1到2個數量級。
而更重要的是人類花了370萬年的才習得這個技能,更別提30億年的生物進化,人類大腦有超過50%的組織用于視覺處理相關,眼睛是人類最快也是最主要的信息輸入通道,我想人類基因再怎么突變在我們有生之年都不會改變人類對于圖形圖案高效識別本能。
第二,在可視領域里我們管這個特性叫隱喻,不管是從300年前發明的折柱餅還是當代的一些新型表達,大家會發現,能流行起來的一定都是那些跟我們生活、常識緊密相關的視覺表達,就像這些。原因很簡單,易理解,在可視化領域里對認知效率的追求就像寫程序時對性能的追求一樣的原始、樸素。
最后一點是統計學加成,不管是簡單的加和、平均還是復雜的聚類、回歸,統計學是讓一組數據變成一個洞察的催化劑,而且隨著計算機領域的算法、算力增強,會進一步放大數據可視化的優勢,因而也間接增強了人類的認知能力。
所以總結來說,數據可視化是數據淘金的必備工具,而且看起來會在未來很長很長的時間里都還會是一個不錯的工具。
也正因為這些原因,我們可以看到在數據行業的版圖里,有大量數據可視化強相關的產品、應用,特別是在數據分析、商業智能領域,數據可視化成為了這些產品的核心競爭力,有著數千億美元的市場規模。

回到螞蟻集團,在我團隊參與的數百個企業級應用里超過8成需要數據可視化的能力,占比遠遠高于toC類的產品,從最普遍的業務系統上的各類報表,到垂類的數據場景應用,比如像性能監控系統、流量分析應用,再到復雜的如算法搭建、數據加工等研發平臺,以及重度依賴可視化的商業智能,螞蟻集團有著極其豐富的數據可視化土壤。
這就是為什么我們需要數據可視化,為什么我們會投入那么多時間,人力去打造這樣一個數據可視化基礎設施。
數據可視化面臨的三大問題與挑戰
第二部分,想和大家分享一下在數據可視化產品設計,應用研發上我們面對哪些主要的問題與挑戰,以及我們是如何應對的一些思考。
第一個挑戰是設計陷阱,有過這方面系統研發的朋友應該都會深有體會,理想很豐滿,但現實很骨感,我們很多產品設計圖上都很好看,儼然一個指揮作戰中心一樣,總覽全局,洞察鮮明,但上線后卻發現各種別扭,常見的就像這兩個素材一樣,真實應用環境中的畸形的數據分布,類目過多等等都會讓原本看起來還不錯的設計變得一團糟。
一眼就能看出來的問題通常都比較好解的,為了避免研發上線后再返工,通常我們會要求在產品設計階段就盡可能拿到真實數據作為輸入,了解到真實的數據特征后再做設計,我稱這個要求叫“始為真”,真實數據,真實特征;
但更難或者說更不易被發現和解決的問題是那些看起來還行,但總覺得別扭的case,我們發現這圖沒啥用,但這圖所要展現的數據又十分重要不能沒有,比較常見的就像一些一年都非常平滑的性能指標、匯總數據,角色構成等等,這些線圖、餅圖你什么時候來看都長得差不多,細微的變化差別你根本發現不了,而且更可怕的是就算能把變化展現出來,很多數據可視化產品設計上并沒考慮分析目標,用這樣一個圖去表達這份數據究竟想看到什么,如果這條曲線上去了或下來了我們的用戶會進一步想知道什么,會從哪些角度進一步分析,相關的決策動作是哪些?如果不往前再想一步,或者說不從終點倒推回來做設計,產出往往就會變成很多報表模塊的通病“so what?Useless”
比如在這個圖分析相關的項目中,用戶會從一個目標節點開始查詢,不斷查看和展開與該節點直接或間接關聯的節點進行探索分析。一開始大家也不知道該如何展現這樣一個復雜的關系網絡,使用了最常見的力導向算法做布局,但不管如何調整布局參數,依然一片混亂,傳遞不了有效的信息。但當我們反過來去探尋用戶的分析目的關鍵是要做團伙發現,關鍵擴散路徑,有了這個分析目標的輸入,很快就有了相對應的基于特定屬性的聚類布局去做團伙發現,用方便查看一度二度鄰居關系的徑向布局去找尋關鍵擴散路徑。我稱這個要求叫“終為實”,實際分析意圖,實際決策依據。
甚至更進一步,單一的靜態設計已經不能滿足動態數據和分析意圖變化的需求,我們還會去做運行時的動態增強,比如我們發現餅圖出現大量長尾類目時會自動提醒做類目合并減少干擾,條形圖自動排序,圖表類型切換建議等等。
始為真,終為實,運行時增強這是我們應對設計陷阱的三個主要對策。
第二個挑戰是研發困境,正如外灘大會的主題,支付寶希望推動全球金融普惠,背后所依靠的是我們的技術普惠,不僅僅是我們的產品能夠服務更多的人,同時也希望我們的基礎技術可以賦能給到更多的人使用。然而數據可視化這個方向本身還是有比較高的門檻,掌握各種數據分析、幾何計算、圖形語法等技能的專家們手里有 D3、Highchart、Tableau等各種武器,他們懂得用什么樣的可視表達能解決什么樣的分析需求。然而對于更多并不需要成為這個方向專家的平民來說,他們用的是Excel、PowerPoint甚至Photoshop,大量的研發實現都是找到一個看起來跟需求差不多的demo,復制粘貼。但事實上很多看起來差不多的實現可能技術選型都是有問題的,比較常見的比如一個圖分析用了一個統計圖表庫,用離線的地理數據去做一個面對公眾的應用,移動應用上用了一個給大屏用的框架等等。
我們希望給大家提供一套完整的,面向各類細分應用場景,專業的企業級數據可視化解決方案,所以會有了 AntV 這個產品矩陣,這是一個按數據特征水平分域,按能力封裝垂直分層的開源產品矩陣。

常規統計數據域上我們有前端領域內最完備的圖形語法實現 G2,這就是剛才主持人介紹的那個獲得圖形語法奠基人Wilkinson肯定的項目,這是最主要的數據域,而且為了滿足支付寶這種國民級的移動端應用對性能和體積的苛刻要求,我們定制了移動端的實現 F2,大家在支付寶上看到的很多財富收益變化、基金走勢等等背后都是 F2,今年的 11.22,AntV 品牌日上,F2 應該還會有一個驚喜給到大家。
第二個重要的數據域是關系數據,這是反映現實世界的特征數據,不管是我們人與人之間的關系,企業間的往來,點對點的物流通通都可以用關系數據表達,今天上午,就在咱們這個會場舉辦的正是“圖智能”的分論壇,講了很多實時圖計算,時序圖智能方面的技術,圖數據的應用對金融領域來說實在太重要了,不管是風控、推薦還是反洗錢等都需要用到圖數據,螞蟻不僅有圖數據庫 Geabase,有金融知識圖譜平臺,還有大量的圖分析應用,這部分的需求我們用 G6 去支撐。與此同時,基于圖編輯的交互方式去做業務領域建模,流程任務編排,機器學習的算法搭建近兩年成為了主流的交互方式,我們其實 4 年多前就有深度依賴圖編輯的應用存在,去年我們決定把這個模塊的內核抽取出來去應對這個越來越旺盛的需求,在今年 11.22,我們會正式開源這個項目 X6。
第三個重要的數據域是地理空間數據,可能大家對這個數據領域并不陌生,我們早已熟悉各類 LBS 應用,但我想說的是單從數據可視化角度來說,這是一個風險極高的領域,市面上大量離線地圖應用基本都是不合規的,不說滿足一圖一審的要求,一份完全合規的離線地理數據就已經有非常嚴苛的標準,AntV 的每一個產品都被成千上萬個的應用所依賴,這點我們不敢掉以輕心,這就是典型的看起來都差不多,但背后的專業度可能相差十萬八千里的項目,在地理空間數據域上我們有 L7.
分層是平衡靈活性和易用性的常用手段,構建在這些基礎類庫上我們有更高度能力封裝的項目,像 G2Plot、Graphin 等等就不多介紹了,這些都可以在 AntV 官網上找到。
但有了一個比較完整的產品方案還遠遠不夠,我們希望研發門檻能夠進一步降低,在平衡靈活性和易用性上分層封裝能讓我們100行原始代碼變成50行,但我們仍需要通過學習大量使用文檔才寫得出這50行代碼,我們希望我們的用戶不需要看文檔,也不需要50行那么多,是否可以就一行代碼,這不是什么天荒夜談,我們已經在做了,半年多前的SEE Conf上我們演示過 AVA 的原型,感興趣的朋友可以線上找到 AntV 的這個分享。我希望 AntV 的產品矩陣和智能研發能解決掉大部分的研發實現上問題。
最后一個更大的挑戰,是解讀訴求的升級,過往企業級的數據可視化訴求更多都只是簡單直接的敘述,描述性分析,但隨著越來越多可視分析的人才和理念從學術界走到工業界,出現了大量靈活多變的探索需求,圈取、聯動、下鉆,探索性分析逐漸成為標配,這方面我們目前也沒有很成熟的解法,應對這挑戰,一方面我們會從業界,特別是學術界引進可視化方向的專業人才,另一方面結合業務訴求我們自己也做了大量創新嘗試,就像KPI指標的可視化拆解,波動分析等等,如果大家有這方面的想法歡迎更多的交流。
數據可視化未來趨勢
關于未來趨勢,我想和大家分享一個我對數據可視化發展的思考模型,過去的一些技術判斷以及對未來方向的預判其實都是從這個模型而來。
正如剛才所說,數據特征對數據可視化來說是一個很重要的維度,大家看到 AntV 目前的產品矩陣設計其實只是這個模型的一個切面,跟數據特征同樣重要的還有兩個維度。
其中一個是時間,從時間的維度觀測數據可視化的能力你會發現,我們絕大部分的應用都在展現過去的數據,一個時刻的單一數據和一個時間段上的匯總數據,本質上并沒有區別,都是單點數據,比如用一個餅圖去看某個組成。而當多個這樣的點按照先后關系排列出來就會進入離線序列的階段,對離線序列的可視表達跟對單點數據的表達方式是很不一樣的,因為觀測點更多會落在變化上面,就像我們會常用折線圖去看趨勢,會用動畫去表達變化本身。離線序列再往前走會走到實時序列,這里面很關鍵的一個技術推動力是 5G/IoT 時代的到來,他會讓實時計算成為主流,同樣也會對實時數據可視提出新的要求,特別是在性能上,對響應時間、算法處理都會有更高的要求,另外,我認為對實時序列觀測點更多會落在異動上,視覺呈現會有更多變化殘影的設計去體現實時的狀態。
第三個維度是分析,Gartner 給出了分析發展的幾個階段,描述性分析、診斷性分析,這包含剛才我們提到過的探索性分析,這是我們當下的主流階段,隨著 AI 技術的發展,AI 跟可視化的結合我們會把我們帶入到預測性分析和規范性分析,這不僅會大大降低我們獲得數據洞察的成本,提高效率,而且還會帶來更具決策建議的洞察從而產生更大的價值。
所以從這幾個切面去看企業級數據可視化的未來發展,能看到幾個比較明朗的趨勢:

第一個趨勢是智能化,從設計、研發、展現到分析,每一個階段都有跟AI結合的地方,就像阿里云 DataV 從手繪設計稿自動生成代碼的功能已經在生產環境上投放,剛才提到過的 AVA 在研發階段的智能輔助,圖表推薦也驗證了可行性,我們內部的 BI 系統正在探索洞察的自動解讀,自然語言查詢和增強分析,今年初我寫過一篇文章,講的就是智能數據可視化時代的到來,相信接下來的幾年會有突破性的進展。

第二個趨勢是平民化,這是我手機里的幾張照片,第一張是我支付寶上買的一個基金的走勢,第二張我家附近菜市場的門口的大屏,第三張是在杭州到千島湖路上某個高速公路服務區廁所門口的引導牌。有充分的理由相信,隨著IoT設備的增多,數字生活服務普及,數據可視化會在我們生活中無處不在,可視化不再只是給數據科學家用的工具,我們要有更多讓老百姓一看就懂的設計。

第三個趨勢是決策集成,想想假如我們的數據能實時到來,決策建議能自動產生,需要我們做的就是判斷是否執行,就像一個陌生來電系統提醒你這是一個被200人標記為電話推銷號時一樣,你閑著沒事可以選擇聽聽賣啥,也可以果斷掛掉。所以以終為始的看,數據可視化的價值是決策執行后帶來的,他前置依賴輔助決策時給的行動建議,而能給出行動建議的一個很關鍵技術能力是增強分析。我想未來的數據可視化應用都會有決策集成,就像一個數字駕駛艙一樣,不僅只是看,更重要的是連接起各個系統,下發行動指令。
這是今天分享的全部內容,可能只是企業級數據可視化應用機遇與挑戰的冰山一角,歡迎大家補充,數據可視化是一個即古老又年輕的領域,期待有機會跟大家有更多的交流,謝謝大家。

