Jūs esate čia: Pradžia » Visos temos » Mokslas » Žmogus ir medicina |
Pažangūs dirbtinio intelekto modeliai puikiai išlaiko profesionalius medicinos egzaminus, tačiau vis dar nesugeba atlikti vienos svarbiausių gydytojo užduočių – kalbėtis su pacientais, kad būtų surinkta svarbi medicininė informacija ir nustatyta tiksli diagnozė.
Prisijunk prie technologijos.lt komandos! Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo. Sudomino? Užpildyk šią anketą! „Didieji kalbos modeliai rodo įspūdingus rezultatus sprendžiant testus su keliais atsakymų variantais, tačiau jų tikslumas labai sumažėja dinamiškuose pokalbiuose, – sako Pranavas Rajpurkaras iš Harvardo universiteto. – Modeliai ypač sunkiai įveikia atviro pobūdžio diagnostinius samprotavimus.“ Tai paaiškėjo, kai mokslininkai sukūrė klinikinio DI modelio samprotavimo gebėjimų vertinimo metodą, pagrįstą imituotais gydytojo ir paciento pokalbiais. „Pacientai“ buvo pagrįsti 2000 medicininių atvejų, daugiausia paimtų iš profesinių JAV gydytojų komisijos egzaminų. „Imituojant bendravimą su pacientais galima įvertinti medicininės istorijos rinkimo įgūdžius – itin svarbų klinikinės praktikos komponentą, kurio negalima įvertinti naudojant atvejų vinjetes“, – sako Shreya Johri, taip pat dirbanti Harvardo universitete. Atvejo vinjetė – tai tikras atvejis, turintis mokomąją vertę grupei, kuriai jis pateikiamas. Naujasis vertinimo kriterijus, vadinamas CRAFT-MD, taip pat „atspindi realaus gyvenimo scenarijus, kai pacientai gali nežinoti, kokias detales reikia atskleisti, ir gali atskleisti svarbią informaciją tik tada, kai jiems užduodami konkretūs klausimai“, sako ji. Pats CRAFT-MD etalonas remiasi dirbtiniu intelektu. „OpenAI“ modelis „GPT-4“ atliko „DI paciento“ vaidmenį bendraudamas su testuojamu „klinikiniu DI“. „GPT-4“ taip pat padėjo vertinti rezultatus, lygindamas „klinikinio DI“ pateiktą diagnozę su teisingu kiekvieno atvejo atsakymu. Šiuos vertinimus dukart tikrino medicinos ekspertai. Jie taip pat peržiūrėjo pokalbius – kad patikrintų „paciento DI“ tikslumą ir įsitikintų, ar „klinikiniam DI“ pavyko surinkti reikiamą medicininę informaciją. Atlikus daugybę eksperimentų paaiškėjo, kad keturi pirmaujantys didieji kalbos modeliai – „OpenAI“ modeliai „GPT-3.5“ ir „GPT-4“, „Meta“ modelis „Llama-2–7b“ ir „Mistral AI“ modelis „Mistral-v2–7b“ – gerokai prasčiau atliko pokalbiais grindžiamą lyginamąjį testą nei diagnozes nustatydami pagal rašytines atvejų santraukas. Pavyzdžiui, „GPT-4“ diagnostikos tikslumas buvo įspūdingas – 82 proc., kai jam buvo pateiktos struktūruotos atvejų santraukos ir leista pasirinkti diagnozę iš atsakymų sąrašo su keliais atsakymų variantais – bet kai jam nebuvo pateikta atsakymų su keliais atsakymų variantais, jis sumažėjo iki 49 proc. O kai reikėjo nustatyti diagnozes iš imituojamų pacientų pokalbių, tikslumas sumažėjo iki 26 proc. „GPT-4“ buvo geriausias tyrime išbandytas dirbtinio intelekto modelis, „GPT-3.5“ dažnai užėmė antrąją vietą, „Mistral AI“ modelis kartais užėmė antrąją arba trečiąją vietą, o „Meta“ „Llama“ modelis dažniausiai buvo įvertintas žemiausiais balais. Be to, dirbtinio intelekto modeliai nemaža dalimi atvejų nesugebėjo surinkti išsamios ligos istorijos, o pirmaujantis modelis „GPT-4“ tai padarė tik 71 proc. imituotų pokalbių su pacientais. Net ir tais atvejais, kai dirbtinio intelekto modeliai surinkdavo svarbią paciento ligos istoriją, jie ne visada nustatydavo teisingas diagnozes. Tokie imituoti pacientų pokalbiai yra „daug naudingesnis“ būdas įvertinti dirbtinio intelekto klinikinio mąstymo gebėjimus nei medicininiai egzaminai, sako Ericas Topolas iš Scrippso tyrimų instituto JAV. Jei dirbtinio intelekto modelis galiausiai įveiks šį kriterijų ir nuosekliai nustatys tikslias diagnozes pagal imituojamus pacientų pokalbius, jis nebūtinai taps pranašesnis už gydytojus žmones, sako P. Rajpurkaras. Jis pabrėžia, kad medicininė praktika realiame pasaulyje yra „netvarkingesnė“ nei simuliacijose. Joje tenka valdyti daugybę pacientų, koordinuoti veiksmus su sveikatos priežiūros komandomis, atlikti medicininius tyrimus ir suprasti „sudėtingus socialinius ir sisteminius veiksnius“ lokaliose sveikatos priežiūros situacijose. „Geri mūsų lyginamojo tyrimo rezultatai rodo, kad dirbtinis intelektas galėtų būti galinga priemonė, padedanti atlikti klinikinį darbą, tačiau nebūtinai pakeičianti holistinį patyrusių gydytojų vertinimą“, – sako P. Rajpurkaras. Tyrimas paskelbtas žurnale „Nature Medicine“. Parengtas pagal „New Scientist“. |