„AlphaFold — kol kas reikšmingiausias dirbtinio intelekto indėlis į mokslą“. Kuo jis ypatingas ir unikalus? (Video)
|
Su baltymų lankstymo problema biologai kamavosi pusšimtį metų. Specialiai apmokytas kompanijos DeepMind dirbtinis intelektas sudėtingiausias šios srities užduotis išsprendė per 15 minučių Baltymų struktūros įgavimo (lankstymosi, erdvinių struktūrų formavimosi, kitaip, tiesiog foldingo) problemą biologai sprendė pastarąjį pusšimtį metų. Tuo tarpu specialiai apmokytas DeepMind kompanijos dirbtinis intelektas daugumą sudėtingiausių šios srities užduočių įveikė per ketvirtį valandos. Baltymo erdvinės struktūros numatymą programine įranga AlphaFold daugelis vadina pirmuoju reikšmingu DI darbo rezultatu ir reikšmingu jo vystymo žingsniu. Nature žurnale DeepMind darbuotojai paskelbė daugiau nei 350 tūkstančių baltymų struktūrų spėjimų, ir rezultatą galės pakartoti laboratorijos visame pasaulyje. Tarp numatytų struktūrų gali būti raktas į vėžio ir Alzheimerio ligos gydymą, kovą su kovidu, o taip pat nauji plastmasės perdirbimo būdai. Proveržis įvyko 2020 metų lapkritį. DeepMind komanda (kuri, kaip prisimename, yra dukterinė Google Alphabet įmonė) laimėjo baltymo CASP 14 struktūros numatymo konkursą (techniškai numatoma trimatės baltymo struktūros aminorūgščių seka). 2021 metų liepą DeepMind publikavo pirmą medžiagą su visu projekto AlphaFold 2 kodu ir metodologija žurnale Nature. Antrame straipsnyje, rašytame kartu su Europos bioinformatikos instituto Europos molekulinės biologijos laboratorija (EMBL), buvo paskelbta apie galimybę numatyti žmogaus proteomo 3D struktūrą 98,5% tikslumu ir nemokamai naudoti duomenis per Protein Structure Database. Įdomu, kad konkurse buvo SARS-CoV-2 viruso baltymas ORF8,kurio struktūra paskui irgi buvo publikuota, CASP, kaip pažymėjo Paulas Workmanas, DB Onkologinių tyrimo instituto prezidentas. ORF8 — sparčiai evoliucionuojantis koronaviruso baltymas, darantis įtaką patogenų gebėjimui išvengti imuninių reakcijų ir reguliuoti imuninį atsaką. AlphaFold ne šiaip tiksliai numatė trimatės formos komponentų, vadinamų antiparalelinėmis beta klostėmis sudėtį. Naująja metodologija teisingai numatytas erdvinis beta klostes jungiančių kilpų išsidėstymas (anksčiau tai buvo gan sudėtinga struktūros prognozavimo užduotis).
DeepMind vadovo Demiso Hassabiso nuomone, šis proveržis yra svarbiausias DI indėlis į mokslą. Kuo jis toks ypatingas ir kiek iš tiesų unikalus? Čia priėjo AlphaFoldUniversalioje baltymų duomenų bazėje yra informacija apie daugiau nei 180 milijonų baltymų sekų ir aminorūgščių išsidėstymą baltyme. Tačiau, norint suprasti, kaip baltymai funkcionuoja organizme, reikia žinoti, kaip šios sekos sukuria trimatę baltymo struktūrą — o tai gerokai sudėtingiau, nei sužinoti teisingą aminorūgščių seką. Iš 180 milijonų sekų mokslininkai kol kas nustatė vos 180 tūkstančių baltymų struktūrą. Naujoji DeepMind duomenų bazė jų kiekį padvigubina. Dabar biologai galės tirti baltymų veikimą ir tarpusavio sąveikas, konstruoti naujus baltymus, ieškoti naujų vaistų, dešifruoti ligas sukeliančias genų variacijas, ir dar daug ką.
Tradiciškai tyrėjai rėmėsi brangiais ir nenašiais metodais, rentgeno spindulių kristalografija ir elektroniniais mikroskopais. Baltymų struktūros dešifruojamos ne vienerius metus, kartais visas finansavimas išleidžiamas tam, kad būtų nustatyta bent vieno iš jų struktūrą. Su nauja duomenų baze bet kuris tyrėjas (teoriškai) galės gauti jį dominančio baltymo struktūrą per kelias minutes. Kaip tvirtina DeepMind vadovas, duomenys prieinami tiek moksliniams, tiek ir komerciniams tyrimams — bet kuris mokslininkas galės panaudoti juos bet kokiems tikslams, tereikės paminėti publikacijoje pažymėtus autorius. Ne šiaip grubi kompiuterio galiaDeepMind sėkmė paremta sėkmingu mašininiu mokymusi — AlphaFold treniravosi su keliomis duomenų bazėmis, kurių didžioji dalis laisvai prieinama. Tarp jų – Protein Data Bank, kurioje yra praktiškai visų mokslui žinomų baltymų (ne tik žmogaus) 3D struktūros ir atitinkamos aminorūgščių sekos, bei UniProt bazė, kurioje yra dar beveik 200 milijonų baltymų aminorūgščių sekų (tačiau be struktūros). AlphaFold (beje, jo pirmtakas — AlphaGo — pagarsėjo, laimėjęs go žaidimą prieš žmogų) — DI modelis su transformeriu, pažangiausia neuroninių tinklų architektūra, kurioje panaudojamas dėmesio mechanizmas ir kuria remiasi tokie garsūs kalbos modeliai, kaip GPT-3 ir BERT. Transformeriai mašininio mokymosi pasaulį užvaldė, kai 2017 metais savo darbe juos pristatė Google Brain tyrėjai. AlphaFold komanda sukūrė naują transformerio tipą, skirtą būtent darbui su trimatėmis struktūromis — Invariant Point Attention (IPA). Lyginant su ankstesniais bandymais spręsti baltymų susilankstymo problemą, išskirtinį AlphaFold pranašumą suteikusia charakteristika galima būtų laikyti rekursijos ir iteracijos panaudojimą. Modelis sudarytas taip, kad kiekviename etape būtų maksimizuojamas informacijos srautas; daugybė hipotezių keliauja tarp daugybės AlphaFold komponentų, ir taip visa sistema bendrai gali vis tiksliau nuspėti baltymo struktūrą. Apžvalgininkai pažymi, kad AlphaFold triumfas ypatingas dar ir tuo, kad tai ne šiaip grubios skaičiavimo galios pergalė. Jo apmokymui panaudotų skaičiavimų apimtis, lyginant su kitais žinomais DI modeliais, buvo gan kukli. AlphaFold sukūrimui reikėjo puikios programinės įrangos ir kelių mašininio mokymosi srities inovacijų. Proveržio beneficiantaiBaltymų struktūros numatymas būtinas suprasti jų veikimą. DeepMind duomenys gali gerokai palengvinti tyrėjų gyvenimą, nors ir nepanaikina, tarkime, keblaus biochemijos ir vaisto poveikio vertinimo darbo. Tačiau netgi mažai tikėtina baltymo struktūros prognozė, nukreipianti mokslininkus tinkama linkme, gali sutaupyti jiems metus darbo. AlphaFold proveržio rezultatus jau dabar aktyviai naudoja biologai. Kalifornijos universiteto San Fraciske tyrėjai panaudojo AlphaFold atrasti anksčiau nežinotas detales apie svarbų SARS-CoV-2 baltymą, kas padės kurti terapines priemones prieš COVID-19. Kolorado universiteto Boulderyje komanda, naudodama AlphaFold, sugebėjo nustatyti itin sudėtingą bakterijos baltymo struktūrą. Šis atradimas gali padėti mokslininkams kovoti su atsparumu antibiotikams — rimtu iššūkiu sveikatos apsaugai. Komerciniu požiūriu AlphaFold pasiekimas patrauklus, ieškant vaistų. Kuriant naują preparatą, reikia nustatyti junginius organizme — dažniausiai baltymus, — kuriuos reikia paveikti, o paskui surasti molekulę (vaistą), kuri tą taikinį turės paveikti. Potencialaus taikinio – baltymo – trimatės formos žinojimas šiame procese yra itin svarbus, nes būtent ji lemia, kokios molekulės ir kaip jungsis su tuo baltymu. Su AlphaFold galima nustatyti daugybę tokių taikinių. Žinoma, AlphaFold (kaip, beje, ir bet kuris kitas DI modelis) negali visiškai pakeisti struktūros nustatymo eksperimentiniu būdu, ir, ko gero, šie du būdai vienas kitą papildys.
Pasitikėk, bet tikrinkIš tiesų, DeepMind programinė įranga kuria tik baltymo struktūros prognozes, o ne eksperimentiškai pagrįstus modelius, todėl juos reikia dar ir patikrinti. Beje, kompanija daug laiko skyrė sukurti AlphaFold tikslumo rodiklius, kuriais įvertinamas kiekvienos prognozės užtikrintumo laipsnis. Antra vertus, AlphaFold sėkmė daugeliui mokslininkų nebuvo didelė naujiena — ji vertinama kaip įvairiuose institutuose kurtos technologijos spėjamų galimybių patvirtinimas. Pavyzdžiui, Vašingtono universiteto mokslininkai sukūrė baltymų struktūros numatymo instrumentą RoseTTaFold, panašų į AlphaFold2.
Kiek skeptiškai AlphaFold pasiekimą gali vertinti ir struktūrinės biologijos specialistai. Tai labiausiai susiję su pasitikėjimo DI lygiu, juk struktūros numatymas — tik prognozė. UCL Bioinformatikos ir skaitmeninės biologijos profesorius ir buvęs CASP dalyvis ir ekspertas, Andrew Martin, įsitikinęs, kad struktūriniai biologai niekuomet neliks be darbo, nes būtent jiems teks tikrinti šių struktūrų prognozių teisingumą. Beje, jis nenumenkina AlphaFold pasiekimų, ir vadina juos „didžiuliu proveržiu, lyginant su viskuo, kas dabar egzistuoja šioje srityje“. Jam antrina ir britų onkologas Paulas Workmanas, užsiimantis naujų vaistų paieška. Savo straipsnyje Workmanas nurodo, kad vidutinė DeepMind komandos paklaida (standartinis nuokrypis) yra maždaug 1,6 angstremo (Å) — prognozės paklaida šiek tiek viršija anglies atomo diametrą (1,4 Å). Atsižvelgiant į istorinį problemos kontekstą, apimančios ir vadinamąją centrinę molekulinės biologijos dogmą (genetinės informacijos perdavimo taisyklė), kurią 1957 metai suformulavo britų biologas Francis Crickas, AlphaFold proveržis — didelis DI ir viso mokslo pasiekimas.
▲
| ||||||
| ||||||