9 月 3 日,在 2022 世界人工智能大會(WAIC)上,騰訊宣布,與國家天文臺共同開啟對 M31 仙女座星系的射電信號處理,這也是天文界對該星系中脈沖星類致密天體的最深度完整探測。
這場“AI+ 天文”的跨界合作始于 2021 年。時年 7 月,馬化騰在去年的 WAIC 上透露,騰訊與國家天文臺啟動“探星計劃”,用 AI+ 云尋找脈沖星,提高探星效率。
雙方合作主要包括三個層面:(1)AI 輔助脈沖星搜索效率提升;(2)AI 輔助快速射電暴搜索;(3)AI 輔助近密雙星系統中脈沖星搜索。
經過一年多的合作,騰訊首次對外披露了“探星計劃”進展:
騰訊云副總裁、騰訊優圖實驗室總經理吳運聲表示,目前,優圖 AI 天體探索方案已從巡天觀測數據中尋找到超過 22 個脈沖星候選體。其中,包括在天體物理中具有較高觀測研究價值的高速自轉的毫秒脈沖星 7 顆,具有間歇輻射現象的年老脈沖星 6 顆。此外,優圖動態譜 AI 模型還首次探測到了某磁陀星射電脈沖。
1 AI 為“中國天眼”尋找脈沖星提速
脈沖星,因為周期性的發射電磁波,被稱為宇宙中的“燈塔”、“最精確的時鐘”,是宇宙演化的研究參考。
脈沖星是在坍縮的超新星的殘骸中發現的,它們有助于人們了解星體坍縮時到底發生了什么。脈沖星的本質是中子星,其具有在地面實驗室無法實現的極端物理性質,是理想的天體物理實驗室,對其進行研究,有望得到許多重大物理學問題的答案,例如黑洞問題。
探星計劃項目組成員,復旦大學計算機系副教授池明旻介紹,脈沖星會組成一個陣,通過陣可以發現黑洞。所有信號到了黑洞那都回不來,黑洞會導致空間的彎曲,通過脈沖星可以幫助尋找和發現這一現象。“在地面導航有 GPS,未來在星際導航的時候,我們可能就要靠脈沖星了”。
目前世界上最強大的脈沖星搜尋利器之一,便是有著“中國天眼”之稱的 FAST,它是世界上靈敏度最高的射電望遠鏡。
FAST 在 1 周內產生的脈沖星觀測數據,大約能得到 3000 多萬張信號圖,如果以人工肉眼處理,按照 1 張 / 秒的速度,在不吃不喝不休息的條件下,需要用一年的時間才能處理完。此外,信號圖成像復雜,傳統的圖像處理和機器學習算法召回率低,加上跨界學習成本高,天文領域專家對 AI 模型的設計和使用不擅長,面臨多種 AI 模型設計難點。
而“云 +AI”可以很好地應對這些問題。
以往需要 1 年完成的工作量,AI 只需要 3 天時間就可以完成。在算力方面,騰訊云為“探星計劃”提供了約 20 個 GPU 的服務器,可每天 24 小時不間斷地做計算。
最新的數據顯示,基于騰訊優圖實驗室的計算機視覺技術、騰訊云的計算及存儲能力,用“云 +AI”幫助中國天眼 FAST 處理每天接收到的龐大數據,并通過視覺 AI 分析找到脈沖星線索,在同等算力下處理效率提高了 120 倍。脈沖星的搜尋效率得到了顯著提升。
2 多項自研 AI 技術創新
數據預處理提速
據介紹,AI 輔助 FAST 探索脈沖星遵循如下技術原理:
FAST 觀測到信號→經過一系列天文和物理學方法處理→得到適合計算機視覺領域處理的圖像數據→對信號進行判別→篩選比對圖像數據→留下少部分樣本→人工再次對少部分樣本進行比對確認。
天文數據在經過 AI 處理前,需要進行數預處理。
數據預處理,主要是將 FAST 觀測到的天文信號轉化成圖像的過程。相比信號,人能夠最直觀的可視和感知到圖像。通過一系列天文領域專門的處理方法,包括快速傅立葉變換、語音信號處理、消色散等,對數據進行預處理,例如,脈沖星有對應的頻率、時間、弧度等三維信號,將這些三維信號轉變成兩維的圖像信號,如時間上位、頻率上位等二維圖,再通過看圖來確定到底是不是脈沖星。
預處理環節是天文領域的難點。這一方面是因為,信號從外太空過來,經過了星際的介質及各種噪聲干擾,信號過來從低頻到高頻,低頻到達較慢,望遠鏡接收入時信號有色散延遲,加上
脈沖星有周期性,色散量不定,脈沖周期也不定,這就導致了首次盲搜的范圍非常之大。
對預處理環節進行加速,是騰訊優圖實驗室在探星計劃中所承擔的核心任務。預處理對計算有著極高的要求,騰訊優圖為此提供了強大的算力支持。
汪鋮杰團隊統計發現,FAST 信號收到后轉化成圖,要搜索 3000 萬張圖 -1 億張圖,才能找到 1 顆脈沖星,如此廣泛的搜索范圍對數據預處理速度提出了更高的要求。騰訊優圖實驗室的視覺 AI 算法幫助了加速了這一過程,通過將原先的預處理算法,進行重復性冗余計算的消除等方式,將預處理過程提速。
池明旻提到了一組對比數據,在 2017 年時,FAST 探索任務的數據預處理過程大約花費 15 分鐘,而現在應用上 AI 算法提速后,數據預處理只需不到 1 分鐘即可完成。
多模態 + 半監督學習的 AI 解決方案
人工智能的算法設計也是一大難點。
這是因為,天文信號是多元的,包括時間上位圖、頻率上位圖、色散圖等。天文信號具有時間周期性,從頻率、色散、向位等角度看,信息并不相同,例如如果從向位的角度看,脈沖星不明顯,但從色散度的角度看會相對明顯。
此外,作為世界最大單口徑的射電望遠鏡,FAST 的工作模式和精度都與其他望遠鏡不同。FAST 有 19 個波束,信號之間互有聯系,在人工智能算法設計時,針對這些信號的處理,需要多元信號融合、多波束信號融合。
針對上述問題,騰訊優圖特別設計了一種基于多模態 + 半監督學習的 AI 解決方案。
多模態是指,基于多信息輸入,綜合評價天文信號到底是不是脈沖星,多維輸入包含了更多的信息和可行性,因此,多模態的解決方案要比基于信號的直接分析效果更佳。
實踐驗證,多模態 + 半監督學習的 AI 解決方案,相比國家天文臺原有的 AI 篩選模型具有更高的召回率,且誤報率下降了 98%。
小樣本學習
數據是人工智能算法的“燃料”。AI 發展多年以來,解決很多場景的大部分問題都是基于對大數據的學習。但在天文領域,盡管處理的數據高達百億規模,但實際上可供學習的有效樣本量還很少。在探星計劃中,目前可供用于學習的脈沖星的量級大約在 100 個左右,如何在這個量級下取得好的學習效果,是一個難題。
小樣本學習是近年來應對數據受限挑戰的一個熱門研究范式。
汪鋮杰介紹,合成樣本有多種方式。例如通過構造一個對的模式去學習,一個脈沖星加上一個位置信號去判斷后者是否與脈沖星有關聯性。數據擴增也是 AI 領域一種較常見的方式,例如在常規的脈沖星上做位移偏移或者加上宇宙仿真的噪音的疊加、變化等。另一種逐漸流行起來的方式是 GAN 技術,即通過對抗式生成的學習方法,學習一些樣本后再生成一些樣本用于學習,這種方法在數據量較小的情況下比較有效。
3 “入地”為“上天”作支撐,探索 AI 和 Science 結合的新范式
汪鋮杰表示,對騰訊優圖而言,在尋找到 22 顆脈沖星之外,探星計劃的另一個重要的意義在于,探索出了 AI 和基礎學科結合的模式。
“在做 FAST 探星項目前,我們不了解天文相關的知識,也不確定 AI 怎么能夠跟基礎科學銜接、配合、協作,現在經過這個項目,我們就有這個底氣去做類似的項目,現在也有一些項目開始推進了”。在汪鋮杰看來,AI for Science 就是在探索 AI 未知能力的邊界。
“探星計劃”是騰訊優圖實驗室總負責人吳運聲所提出“AI 普適化”愿景的重要實現環節之一,“AI 普適化”旨在讓 AI 技術能夠具備在各行各業里應用和落地的能力,且能夠實實在在地為某一個行業帶來實質性的變化。
在此次 WAIC 上,騰訊還對外展示了云 +AI 在工業、金融、傳媒、能源、交通等多個場景下的創新實踐。以在工業領域為例,吳運聲表示,騰訊的工業 AI 基礎技術集中在工業成像、基礎算法、高效學習以及仿真生成四個方面,通過這四部分能力已打造超過 10 個細分領域外觀檢測的解決方案。結合規?;涞亟涷灒v訊云推出了工業質檢訓練平臺,其面向工業外觀缺陷檢測場景,零基礎工程師也能輕松使用,擁有算法精準、部署靈活、簡單易用、功能完備的特點,降低工業 AI 質檢算法落地的技術門檻。
而正是基于在上述“入地”的項目中的實踐打下的基礎,才讓 AI“上天”探星具備了更多可能性。
“天文和工業,表面上看好像完全沒有聯系,但實際上在這些場景里,AI 底層技術是相通的”,汪鋮杰表示,“FAST 探星計劃中應用的很多技術,源于騰訊優圖在工業 AI 質檢場景的很多算法的研究和積累,如檢測任務、分類模型、小樣本學習、異常檢測等”。

