伯克利實驗室重大醫(yī)學AI成果,解決世界上緊迫的科學挑戰(zhàn)
小鼠卵細胞切片對應(yīng)的手動分割
美國能源部勞倫斯伯克利實驗室的數(shù)學家們,開發(fā)了一種針對實驗成像數(shù)據(jù)的新的機器學習算法。與典型的機器學習算法需要成千上萬的訓練圖像不同,這種新算法需要的訓練圖像少得多,而且速度也提高了不少。
伯克利實驗室的能源高級數(shù)學研究與應(yīng)用中心(簡稱CAMERA)的Dani?l Pelt和James Sethian,通過開發(fā)一種他們稱之為“多尺寸密集卷積神經(jīng)網(wǎng)絡(luò)”(MS-D)的新算法,顛覆了傳統(tǒng)的機器學習理念。和傳統(tǒng)方法相比,新方法需要的參數(shù)更少,收斂更快,而且可以基于非常小的數(shù)據(jù)集進行學習。他們提出的這種方法已經(jīng)被用于從細胞圖像中提取生物結(jié)構(gòu),而且可以作為多個研究領(lǐng)域分析數(shù)據(jù)的主要計算工具。
當實驗設(shè)備以更高的速度生成更高分辨率的圖像時,科學家們很難對得到的數(shù)據(jù)結(jié)果進行管理和分析,這些工作通常需要手動完成。2014年,Sethian在伯克利實驗室建立了一個集成的交叉學科中心CAMERA,目的是開發(fā)美國能源部科學用戶設(shè)施辦公室實驗所需的基礎(chǔ)數(shù)學方法。CAMERA是該實驗室的計算研究部門的一部分。
“在許多科學應(yīng)用中,研究人員需要耗費大量的體力勞動來標注和勾畫圖像,有時候為了得到幾張勾畫精細的圖像,甚至要花費幾周時間。我們的目標是開發(fā)出一種能基于非常小的數(shù)據(jù)集進行學習的技術(shù)”,Sethian說道。Sethian是加州大學伯克利分校的數(shù)學教授。
這項算法的詳細介紹發(fā)表在了2017年12月26日的美國國家科學院學報上。
“這項突破源于我們意識到,通過放大和縮小,在不同尺寸下捕捉特征的方法,可以用在單個層上處理多個尺寸的數(shù)學運算來取代,” Pelt介紹道。Pelt是荷蘭數(shù)學與計算科學研究所下屬的計算成像小組的成員。
了解生物細胞的內(nèi)部結(jié)構(gòu)是該方法非常富有前景的應(yīng)用領(lǐng)域之一。在一個項目中,Pelt和Sethian采用MS-D算法,只用了7個細胞的數(shù)據(jù)就確定了其內(nèi)部結(jié)構(gòu)。
“我們實驗室正在研究細胞結(jié)構(gòu)和形態(tài)如何影響或控制細胞的行為。”美國國家x射線斷層掃描中心主任、加州大學舊金山分校醫(yī)學院的教授卡Carolyn Larabell說道。“我們花了大量時間來手工分割細胞以提取結(jié)構(gòu),分辨健康與患病細胞之間的差異。這種新方法有可能從根本上改變我們理解疾病的能力,而且是我們建立人類細胞圖譜的一個關(guān)鍵工具。人類細胞圖譜是一個通過全球協(xié)作來繪制和勾畫一個健康人體的所有細胞的項目。”
用更少的數(shù)據(jù)獲取更多的科學真理
如今,圖像無處不在。智能手機和傳感器產(chǎn)生了一批珍貴的圖像,其中很多都帶有相關(guān)的標記信息。基于這個龐大的交叉參考數(shù)據(jù)庫,卷積神經(jīng)網(wǎng)絡(luò)和其他機器學習算法已經(jīng)徹底改變了我們快速識別那些和我們曾經(jīng)見過和分類過的圖像類似的自然圖像的能力。
這類方法需要數(shù)以百萬計的標記過的數(shù)據(jù)作為引導,通過調(diào)整一系列隱藏的內(nèi)部參數(shù)來“學習”其中的規(guī)律,這個過程需要使用巨型計算機并花費大量的時間。如果我們沒有這么多標記好的圖像該怎么辦呢?要知道,在很多領(lǐng)域,如此龐大的數(shù)據(jù)是難以企及的奢侈品。生物學家記錄下細胞圖像,并煞費苦心地手動勾勒出邊界和結(jié)構(gòu)。對他們來說,為了得出一個完整的三維圖像而花費數(shù)周時間,是很稀松平常的事情。材料科學家利用斷層重建技術(shù)來觀察巖石和材料,擼起袖子手動標記不同的區(qū)域,辨認裂縫、斷口和孔洞。不同重要結(jié)構(gòu)之間的差異非常細微,數(shù)據(jù)中的噪聲很可能掩蓋掉這些特征,迷惑最出色的算法和專家。
對于傳統(tǒng)的機器學習算法來說,這些手動標記的寶貴數(shù)據(jù)數(shù)量遠遠不夠。為了解決這一問題,CAMERA的數(shù)學家們基于非常有限的數(shù)據(jù)對機器學習發(fā)起了挑戰(zhàn)。他們試圖用更少的數(shù)據(jù)獲得更佳的結(jié)果,他們的目標是找出建立一套高效的數(shù)學“運算符”的方法,以大大減少參數(shù)的數(shù)量。這些數(shù)學運算符可能會自然地結(jié)合一些關(guān)鍵約束來幫助識別,比如結(jié)合對科學合理的形狀和模式的要求。
多尺寸密集卷積神經(jīng)網(wǎng)絡(luò)
機器學習在成像問題中的許多應(yīng)用,采用的都是深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)。其中輸入圖像和中間圖像在大量的連續(xù)層中進行卷積,使得網(wǎng)絡(luò)能夠?qū)W習高度非線性的特征。為了在復雜的圖像處理問題中獲得準確的結(jié)果,DCNNs通常依賴于額外操作和連接的組合,比如通過放大和縮小來捕捉不同的圖像尺寸下的特征。為了訓練更深層和更強大的網(wǎng)絡(luò),往往需要額外的層類型和連接。最后,DCNNs通常使用大量的中間圖像和訓練參數(shù)(往往超過1億)來獲取復雜問題的結(jié)果。
而新的“多尺寸密集”網(wǎng)絡(luò)結(jié)構(gòu)避免這樣的復雜過程,它用擴張的卷積替代縮放操作,以捕捉各種空間范圍下的特征,在單個層中使用多個尺度,并將所有中間圖像緊密地連接起來。新的算法只需要很少的中間圖像和參數(shù)就能獲取精確的結(jié)果,而且不需要調(diào)整超參數(shù)以及額外的層或連接來支持訓練。
從低分辨率數(shù)據(jù)中獲取更精確的結(jié)果
這種方法所面臨的一大不同挑戰(zhàn)就是,要從低分辨率的輸入中產(chǎn)生高分辨率的圖像。任何嘗試過把圖像放大的人都知道,當圖像的尺寸變大時畫質(zhì)也會變得糟糕,因此這聽起來就像一個不可能完成的任務(wù)。但一小部分經(jīng)過多尺寸密集卷積神經(jīng)網(wǎng)絡(luò)處理的訓練圖像確確實實能夠起到一些作用。比如對纖維增強的微型復合材料的層析重建進行降噪。論文中提到了一個實驗,用1024個x射線投影重建的圖像,得到的圖像噪聲相對較低。同一物體的噪聲圖像隨后用128個投影進行了重建。訓練輸入是有噪聲的圖像,在訓練中使用相應(yīng)的無噪聲圖像作為目標輸出。經(jīng)過訓練的網(wǎng)絡(luò)能夠有效地獲取噪聲輸入數(shù)據(jù)并重構(gòu)更高分辨率的圖像。
新的應(yīng)用方向
Pelt和Sethian正在努力將他們的研究成果應(yīng)用到一系列新的領(lǐng)域,比如快速實時分析同步加速器光源產(chǎn)生的圖像,以及生物重建問題,比如重建細胞和大腦的映射。
Pelt說道:“這些新方法令人振奮,它們讓機器學習得以應(yīng)用到比目前更加廣泛的成像問題當中。通過減少所需訓練圖像的數(shù)量,增加可以處理的圖像的大小,這一新的體系結(jié)構(gòu)可以用來回答許多研究領(lǐng)域中的重大問題。”
CAMERA由美國能源部科學辦公室的高級科學計算研究和基礎(chǔ)能源科學辦公室支持。科學辦公室是美國物理科學基礎(chǔ)研究的最大支持者,它正致力于解決我們這個時代最緊迫的一些挑戰(zhàn)。
勞倫斯伯克利國家實驗室通過推進可持續(xù)能源,保護人類健康,創(chuàng)造新材料,揭示宇宙的起源和命運,來解決世界上最緊迫的科學挑戰(zhàn)。伯克利實驗室成立于1931年,獲得了13項諾貝爾獎。勞倫斯伯克利實驗室雖然隸屬美國能源部,卻具體由加利福尼亞大學負責運行。