「胰腺導管腺癌(PDAC)」是癌中之王致死性最高的癌種之一,其特點是何助進展迅速、轉移快、力胰早期診斷困難、腺導術后復發率高,管腺因此被稱為“癌中之王”。癌早很多患者診斷為PDAC時已處于疾病晚期,期檢錯過手術治療的癌中之王時機,五年生存率極低。何助PADC之所以很難早期診斷,力胰主要有三個原因:首先,腺導胰腺的管腺解剖位置使腫瘤隱匿,不易被發現。癌早其次,期檢患者的癌中之王早期癥狀(如體重減輕、疲勞、腹部和背部疼痛和不適)不夠特異,無法明確診斷。再者,目前已有的胰腺癌非侵入性檢測方法尚不成熟。因此,尋找更有效的檢測PDAC的方法很有必要。
代謝組學(metabolomics)可以收集、檢測和分析對生物活性和病理條件高度敏感的各種小分子代謝物,準確、穩健和低成本的代謝組學檢測方法為未來的疾病診斷提供了希望。近年來,越來越多的研究借助人工智能的方法,對組學數據進行分析并建立合適有效的檢測或驗證模型,應用于疾病診斷、分型及療效預測。
機器學習(machinelearning, ML)與代謝組學結合診斷是當前一個極具吸引力和前景的概念,但以往的工作主要集中在模型構建上,而不是選擇關鍵的代謝物進行疾病檢測。近日,北京大學基礎醫學院尹玉新教授團隊與中科院、中國人民解放軍總醫院合作者應用機器學習結合脂質組學和多組學技術綜合分析胰腺導管腺癌(胰腺癌)的代謝特征,開發出人工智能輔助的PDAC血清代謝檢測方法,在超過1000例的大型外部驗證隊列以及包含胰腺良性病變的前瞻臨床隊列中分別實現了86.74%,85.00%的分類檢測準確性,其檢測效能顯著優于CA19-9與CT檢查。該項題為“Metabolic detection andsystems analyses of pancreatic ductal adenocarcinoma through machine learning,lipidomics, and multi-omics”的研究于2021年12月22日在Science Advances雜志在線發表。
研究成果(圖源:Science Advances)
在大多數醫療應用程序中,ML方法通常是在一個數據集上進行評估的。相比之下,ML輔助代謝性PDAC檢測方法已經由一個大型外部驗證隊列(n = 1003)進行了測試和評估,表明了該方法性能的穩定性。處理速度快和精度高的特點使得這種PDAC檢測方法在未來的具有很好的應用潛力。
傳統上,代謝組學或脂質組學的數據維數降低和生物標志物篩選主要是基于方差分析(ANOVA)、最小二乘判別分析(PLS-DA)。本研究創新性地應用了基于支持向量機(SVM)的貪心算法(greedy algorithm),在血清脂質組學數據的特征選擇上表現出了優異的性能。
對1033例不同階段的PDAC患者進行測試發現,該方法在大型外部驗證隊列中準確率為86.74%,曲線下面積(AUC)為0.9351,前瞻性臨床隊列中準確率為85.00%,AUC為0.9389。
ML輔助代謝型PDAC檢測方法在驗證研究訓練數據集&內部驗證數據集&外部驗證數據集&前瞻性臨床隊列中的ROC曲線(圖源:Science Advances)
在選擇的特征代謝物中有17種類型的脂質,包括4種溶血磷脂酰膽堿(LPC)、7種磷脂酰膽堿(PC)、3種鞘磷脂(SMs)、1種溶血磷脂酰乙醇胺(LPE)、1種磷脂酰乙醇胺(PE)和1種甘油二酯(DG)。LPC、PC和PE參與甘油磷脂代謝,SMs參與鞘脂代謝。組織蛋白質組學和單細胞測序分析顯示,在PDAC細胞中甘油磷脂和鞘脂代謝途徑被擾亂。這些代謝產物的一系列變化可能反映了PDAC起始和發育過程中脂質代謝及相關信號轉導途徑的改變、癌細胞的增殖和凋亡抵抗。本研究中將ML分析的血清脂質組學、組織蛋白質組學、單細胞測序等技術相結合,從外周循環血液和組織空間脂質組學的整合角度來表征PDAC的脂質代謝特征。
挑選出來的17種特征脂質代謝物的離子色譜圖(圖源:Science Advances)
本工作建立了代謝組學結合ML和貪心算法的方法,利用ML細化了靶向代謝組學的疾病檢測程序。目前除CA19-9外,PDAC診斷尚無可用的基于液體的檢測方法。然而,CA19-9檢測亦有明顯局限性,如良性胰膽疾病患者由于膽道梗阻也會表現為CA19-9升高,易被誤診為胰腺癌。ML輔助的代謝性PDAC檢測方法具有準確、高靈敏度、微創(以血清為基礎)和無放射性的特點,可能有助于臨床醫生更全面、更準確地進行PDAC診斷以及后續治療。因此,將其納入目前的診斷方法可能對PDAC高危患者的常規診斷程序起到補充作用。
「當然,這項研究的一些局限性。」
該模型選取的特征還不能區分PDAC的早期或晚期階段,也不能用來預測PDAC患者的預后。并且該方法主要是基于東亞人群進行,是否適用于其他人群中PDAC的檢測還有待進一步研究。運用代謝組學數據還必須考慮到其他代謝性疾病如肥胖、糖尿病與PDAC之間的關系,否則ML輔助代謝性PDAC檢測方法的性能可能會受到代謝相關混雜因素的影響。該方法,還應結合CA19-9、腹部超聲、CT等現有的檢測手段,對PDAC篩查和檢測結果做出謹慎解釋。
參考資料:
[1]Wang G, Yao H, Gong Y, et al. Metabolic detection and systems analyses of pancreatic ductal adenocarcinoma through machine learning, lipidomics, and multi-omics. Sci Adv. 2021 Dec 24;7(52):eabh2724. doi: 10.1126/sciadv.abh2724. Epub 2021 Dec 22. PMID: 34936449.