2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺。利用阿里達摩院研發(fā)的AI算法,可將原來數(shù)小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,并能精準檢測出病毒的變異情況。
當前,全國新型冠狀病毒肺炎疫情依然嚴峻,快速、精確診斷對于疫情控制尤其重要。公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進行比對才能確定診斷結果。
目前,醫(yī)院普遍采用核酸檢測方法,其只能檢測到病毒基因的局部。由于病毒存在變異的可能性,對于整個基因序列來說這種檢測方法猶如盲人摸象,一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
浙江的全基因組檢測分析平臺由浙江省疾病預防控制中心、阿里達摩院醫(yī)療AI團隊和杰毅生物技術公司共同研發(fā)。該平臺采用全基因組檢測技術,對疑似病例的病毒樣本進行全基因組序列分析比對,它不同于核酸檢測方法,能夠有效防止病毒變異產生的漏檢,并將原需數(shù)小時的全基因分析流程減少到半小時,大幅提高疑似病例的確診速度和準確率。
據阿里方面披露,此次研發(fā)的自動化全基因組檢測分析平臺屬于高通量測序。杰毅生物開發(fā)了全自動高通量測序建庫儀,把整體常規(guī)人工需要12小時的工作縮短到2個小時。每次測序過程會產生海量的數(shù)據,達摩院采用分布式設計的分析算法,病毒檢測的整體速度由數(shù)小時縮短到半小時;同時,由于采用分布式算法,病毒拼接的速度由30分鐘至1小時縮短到15至30分鐘。
疫情發(fā)生后,達摩院算法專家顧斐博士立即奔赴浙江省疾控中心,第一時間針對新型冠狀病毒基因進行特征分析,并推出多個算法模型。在序列比對過程中,達摩院對算法增加了分布式設計,有效提升比對效率;在病毒序列拼接階段使用分布式設計的de Bruijn圖算法,變異病毒也能精準檢測。
達摩院還針對新冠病毒基因的特征進行了分析,基于pdb等公共數(shù)據集的數(shù)據進行算法的優(yōu)化訓練。本次分析病毒檢測和病毒變異部分主要基于開源算法,設計分布式算法以加速分析流程。病毒序列拼接完成后,通過設計BiLSTM+DNN的方式訓練模型預測病毒蛋白二級結構。同時,達摩院還在研究基于序列的蛋白質三維結構預測模型以及藥物篩選模型。
阿里方面表示:“檢測變異病毒就需要拼接出一個病毒的完整基因組,我們可以百分之百檢測到變異病毒。目前無變異病毒案例?!?/p>
目前,通過核酸檢測方法,新型冠狀病毒的檢測時間也已經大大縮短。