A nyílt vagy a zárt forráskódú AI diagnosztikai modellek alkalmazhatók jobb eredménnyel?
A JAMA Health Forum folyóiratban március 14-én jelent meg a Harvard Medical School kutatóinak cikke, amely szerint a Llama 3.1 405B nevű nyílt forráskódú mesterséges intelligencia eszköz a GPT-4-gyel, egy zárt forráskódú modellel azonos orvosdiagnosztikai teljesítményt nyújtott.
Elemzésükben a kutatók a két modell teljesítményét 92 olyan rejtélyes eset vizsgálatában hasonlították össze, amelyek a The New England Journal of Medicine hetente megjelenő, diagnosztikai szempontból kihívást jelentő klinikai esetek rovatában szerepeltek. Az eredmények arra utalnak, hogy a nyílt forráskódú mesterséges intelligenciaeszközök egyre versenyképesebbek, és értékes alternatívát kínálhatnak a védett, zárt forráskódú modellekkel szemben.
Tudomásunk szerint ez az első alkalom, hogy egy nyílt forráskódú mesterséges intelligenciamodell elérte a GPT-4 teljesítményét az ilyen nehéz, diagnosztikai kihívást jelentő esetekben - nyilatkozta a cikk első szerzője, Arjun Manrai. - Tényleg megdöbbentő, hogy a Llama-modellek ilyen gyorsan felzárkóztak a piacvezető, szabadalmaztatott modellhez. A betegek, az egészségügyi szolgáltatók és a kórházak is csak nyerhetnek ezzel a versennyel.
A nyílt forráskódú és a zárt forráskódú mesterséges intelligencia több fontos jellemzőben különbözik egymástól. Először is, a nyílt forráskódú modellek letölthetők és futtathatók a kórház saját számítógépein, így a betegadatok házon belül maradnak. Ezzel szemben a zárt forráskódú modellek külső szervereken működnek, és a felhasználóknak személyes adatokat kell külső partnerhez továbbítaniuk.
A nyílt forráskódú modell valószínűleg vonzóbb lesz sok vezető informatikus, kórházi adminisztrátor és orvos számára, mivel alapvetően más, amikor az adatok elhagyják a kórházat egy másik, akár megbízható szervezet felé is - összegzett Thomas Buckley, a tanulmány társszerzője.
Másodszor, az orvosi és informatikai szakemberek a nyílt forráskódú modelleket az egyedi klinikai és kutatási igényekhez igazíthatják, míg a zárt forráskódú eszközöket általában nehezebb testre szabni.
Ez kulcsfontosságú tényező számunkra, mivel a helyi adatok segítségével finomhangolhatjuk ezeket a modelleket oly módon, hogy azok a saját orvosaink, kutatóink és betegeink igényeihez igazodjanak.
Harmadszor, a zárt forráskódú AI-fejlesztők, mint például az OpenAI és a Google, saját modelljeiket hosztolják, és hagyományos ügyféltámogatást nyújtanak, míg a nyílt forráskódú modellek a felhasználókra hárítják a modell beállításának és karbantartásának felelősségét. És eddig a zárt forráskódú modellek könnyebben voltak integrálhatók az elektronikus egészségügyi nyilvántartásokba és a kórházi informatikai infrastruktúrába.
Mind a nyílt forráskódú, mind a zárt forráskódú AI-algoritmusokat hatalmas adathalmazokon képzik ki, amelyek között orvosi szakkönyvek, lektorált kutatások, klinikai döntéstámogató eszközök és anonimizált betegadatok, például esettanulmányok, vizsgálati eredmények, képalkotó vizsgálatok felvételei és megerősített diagnózisok találhatók. Az algoritmusok ezeken az óriási adatmennyiségeken hatalmas sebességgel tanulnak meg mintázatokat. Például: hogyan néznek ki a rákos és a jóindulatú daganatok a képalkotó vizsgálatok felvételein? Melyek a szívelégtelenség legkorábbi árulkodó jelei? Hogyan lehet megkülönböztetni egy CT-vizsgálaton a normális és a gyulladt vastagbélszakaszokat? Amikor egy új esettel találkoznak, a mesterséges intelligenciamodellek összehasonlítják a beérkező információkat a képzés során elsajátított tartalommal, és lehetséges diagnózisokat javasolnak.
A mostani elemzés során a kutatók a Llama modellt egyrészt 70 olyan nehéz, diagnosztikai kihívást jelentő klinikai eseten tesztelték, amelyeket korábban a GPT-4 teljesítményének értékelésére használtak. Másrészt a kutatók a vizsgálathoz 22 új, a Llama betanítási időszakának vége után közzétett esetet adtak hozzá, hogy kizárják azt a lehetőséget, miszerint a Llama véletlenül találkozhatott a 70 közzétett eset közül néhánnyal a betanítás során.
A nyílt forráskódú Llama az esetek 70 százalékában helyes differenciáldiagnózist állított fel, míg a GPT-4 esetében ez az arány 64 százalék volt. Emellett az esetek 41 százalékában a végül helyesnek bizonyuló választ jelölte meg első javaslatként, szemben a GPT-4 37 százalékával. A 22 újabb esetből álló részhalmazban a nyílt forráskódú modell még magasabb pontszámot ért el, az esetek 73 százalékában helyesen döntött, és az esetek 45 százalékában a végső diagnózist jelölte meg első javaslatként.
Orvosként azt láttam, hogy a nagy teljesítményű nagy nyelvi modellekkel kapcsolatos figyelem középpontjában nagyrészt olyan szabadalmaztatott modellek állnak, amelyeket nem tudunk helyben futtatni - mondta Adam Rodman, a cikk társszerzője. - Tanulmányunk azt sugallja, hogy a nyílt forráskódú modellek ugyanolyan robusztusak lehetnek, és az orvosoknak és az egészségügyi rendszereknek sokkal nagyobb kontrollt biztosítanak e technológiák felhasználása felett.
Egy 2023-as jelentés szerint az Egyesült Államokban évente mintegy 795 ezer beteg hal meg vagy szenved maradandó fogyatékosságot diagnosztikai hiba miatt. A betegek közvetlen kárán túl a diagnosztikai hibák és késedelmek komoly pénzügyi terhet róhatnak az egészségügyi rendszerre. A pontatlan vagy késői diagnózisok szükségtelen vizsgálatokhoz, nem megfelelő kezelésekhez és egyes esetekben súlyos szövődményekhez vezethetnek, amelyek kezelése idővel egyre nehezebbé - és költségesebbé - válik.
Bölcsen használva és felelősen beépítve a jelenlegi egészségügyi infrastruktúrába, a mesterséges intelligencia-eszközök felbecsülhetetlen értékű másodpilóták lehetnek az elfoglalt orvosok számára, és megbízható diagnosztikai segédeszközként szolgálhatnak a diagnózis pontosságának és gyorsaságának fokozására - összegzett Manrai.
Írásunk az alábbi közlemények alapján készült:
Open-source AI matches top proprietarymodel in solvingtoughmedicalcases
Comparison of Frontier Open-Source and Proprietary Large Language Models for Complex Diagnoses
Irodalmi hivatkozás:
Thomas A. Buckley et al, Comparison of Frontier Open-Source and Proprietary Large Language Models for Complex Diagnoses, JAMA Health Forum (2025). DOI: 10.1001/jamahealthforum.2025.0040