黑色機柜被整齊排成數行,高速運轉的機器持續發出低沉的嗡鳴聲,星星點點的負載指示燈不斷閃爍……這里是“天河二號”的機房,碩大的超級計算機正在飛速運行。
過去的一年,新冠肺炎疫情席卷全球,來勢洶洶。憑借超強算力,“天河二號”助力藥物虛擬篩選,只用了3天時間便迅速定位了30余種潛在有效藥物。在“天河二號”上搭建的新冠肺炎CT影像智能診斷平臺,15秒即可完成一次CT圖像診斷,為抗擊疫情作出了重大貢獻。
作為幕后功臣,國防科技大學計算機學院“天河”高性能計算團隊(以下簡稱“天河”團隊)功不可沒。在剛剛過去的春節假期,團隊上下60余人堅守崗位,以這樣特殊的方式為祖國守歲。
肖立權:用光互聯替代電互聯
肖立權,“天河二號”副總設計師、“天河”團隊互聯通信方向負責人。
我國高性能計算起步較晚,要想趕上西方國家,唯有奮起直追。為了讓我國高性能計算早日趕超西方國家,肖立權一拼就是30年。
“走別人沒有走過的路很難,但我喜歡挑戰!”這是肖立權常說的一句話。20世紀末,大規模計算機系統中通常采用電互聯技術,信息傳輸速率慢且易受干擾,影響系統穩定性。這是我國研制千萬億次級超級計算機路上的一塊“絆腳石”。
搬開這塊“絆腳石”的最優解決方案,就是用光互聯替代電互聯,上級將這一重任交給了肖立權。
這條別人沒有走過的路,注定充滿坎坷。接下任務后,肖立權立即著手解決這項技術難題。然而,按照他的思路做出來的系統根本“跑不起來”。
“是哪里出了問題?”肖立權滿腦子都是問號,午休時閉上眼睛,他腦海中全是屏幕上滾動的數據。
“沒法睡!去實驗室!”架起示波器、邏輯分析儀,肖立權全神貫注地看著屏幕,生怕錯過關鍵數據。
解決方案被一次次提出,但又被一次次推翻。有一天,肖立權突然冒出一個想法:是不是數據傳輸有問題?這次靈光突現,讓他一下找到了解決問題的“鑰匙”。由此,我國光互聯技術在大規模計算機系統中得到有效驗證,這為后續該技術在超級計算機系統中的應用奠定了堅實基礎。
2013年,是“天河”團隊發展歷程中濃墨重彩的一年。當年6月,“天河二號”研制成功,登上了世界超級計算機排行榜的榜首。
同年11月,為升級“天河二號”系統,肖立權和團隊成員展開了為期10個月的封閉式攻關,力爭完成核心器件國產化替代。經過這一輪攻關,肖立權帶領“天河”團隊大幅提升了“天河二號”高速互聯通信系統的性能,使其運行速度達到當時國際商用互聯系統的2倍,為下一代超級計算機研制奠定了基礎。
郭揚:讓國之重器澎湃“中國芯”
“天河二號”的“成長環境”并不十分“友好”,長久以來,西方國家在這一領域對我國實現嚴格的技術封鎖。
曾有很長一段時間,我國信息系統軟、硬件受制于人的問題難以得到解決。為攻克這一難題,“天河”團隊再次奔赴戰場。
“天河”團隊微電子方向負責人、國防科技大學計算機學院研究員郭揚就是核心芯片這個戰位上的先鋒。
芯片制造技術是制造業的核心技術,超級計算機所需的芯片更被譽為“皇冠上的明珠”。為了摘取這顆“明珠”,郭揚堅守了20余年。今年春節,他依舊堅守崗位,在機柜間不停穿梭。在僅有幾十米寬的機房里,他每天可以走出數萬步。
運算速度(俗稱算力)和功耗是超級計算機芯片的核心指標。通常來說,要想實現更高算力,就需要在芯片中集成更多的晶體管,但這就會增加芯片面積和功耗。研制超級計算機芯片的難點在于,要在保證高算力的前提下,盡可能減少芯片的功耗。為了早日攻克這一難題,曾有一段時間,郭揚四處奔波,到軍隊內外各地調研考察,出國參加學術交流活動,研究業內發展趨勢,幾經周折最終確定了走“基于自主指令集的異構融合架構”的技術路線。
這是一條崎嶇難走的路。研制自主指令集的處理器芯片,意味著研發團隊不僅要研制芯片,還必須同步研制出配套的編譯器、算法庫等全套軟件系統。若采用現成的指令集芯片,工作量將減少數倍。
“這條路必須走!跟在別人后面、走現成的路,已無法實現技術領先。這條路,我們就算披荊斬棘也要走!”郭揚說。