hirdetés
2024. november. 21., csütörtök - Olivér.
hirdetés

Rábírható-e csalásra vagy etikátlan viselkedésre az MI?

A nagy nyelvi modellek és multimodális modellek viselkedése egyértelmű párhuzamokat mutat az emberi viselkedéssel. Éppen ezek a párhuzamok világítanak rá arra, hogy miért érdemes a mesterséges intelligenciát „elmének” tekinteni, és hogyan használhatjuk a viselkedéstudomány eszköztárát a nagy nyelvi modellek működésének megértésében és teljesítményük növelésében.

Ha úgy tekintünk az egyre komplexebb nagy nyelvi modellek, például a ChatGPT működésére, mint az emberi viselkedésre és gondolkodásra, a pszichológia és a kognitív idegtudomány eszköztára nagy segítségünkre lehet a megértésükben, a hibáik kiküszöbölésében és a hatékonyságuk növelésében.

A nagy nyelvi modellek alapvető célja, hogy jó folytatást írjanak az általunk beírt szöveghez. Ez általában egy kérdés, amire a természetes folytatás egy válasz. Azonban nem feltétlenül akarnak helyes választ adni a kérdésünkre, egyszerűen csak a következő szót/szavakat akarják a lehető legjobban megjósolni – foglalta össze e modellek működésének lényegét Kekecs Zoltán, az ELTE adjunktusa tudományünnepi előadásában, amelyet az MTA Filozófiai és Történettudományok Osztálya által szervezett, Pszichológia és mesterséges intelligencia: Új kihívások, új lehetőségek című rendezvényen tartott.

A nagy nyelvi modellek és multimodális modellek viselkedése egyértelmű párhuzamokat mutat az emberi viselkedéssel. Éppen ezek a párhuzamok világítanak rá arra – mutat rá Kekecs –, hogy miért érdemes a mesterséges intelligenciát „elmének” tekinteni, és hogyan használhatjuk a viselkedéstudomány eszköztárát a nagy nyelvi modellek működésének megértésében és teljesítményük növelésében.

A mélytanuló neuronhálókat nem programozzák, hanem tanítják, ezért a viselkedésük jelentősen függ attól, milyen tanítási módszerrel közelítünk feléjük, milyen jutalmazást vagy büntetést alkalmazunk – hangzott el az előadásban.
 
Rábírható-e csalásra vagy etikátlan viselkedésre a mesterséges intelligencia?

A jelenlegi modellekbe nincs és nem is lehet keményen kódolni a robotika törvényeit. Ehelyett a modellek megtanulják (mint egy ember vagy okosabb állat), hogy bizonyos viselkedések nem kívánatosak, ezért ezektől tartózkodnia kell. Például hiába provokáljuk a ChatGPT-t, nem használ trágár és vulgáris kifejezéseket, mert nem támogatja az erőszakos kommunikációt. Ha azonban manipulatív utasításokkal fiktív történetbe helyezzük, és megfelelő karakterjegyekkel ruházzuk fel – szemlélteti Kekecs –, ha trágárkodásra nem is, de arra legalábbis már rávehető, hogy széles tárházát ajánlja a vulgáris kifejezések forrásának. Sőt ha az eredeti kérésünk az volt, hogy olyan szavakat írjon, amelyeket egy kisgyereknek nem szabad ismernie, minden további nélkül arra biztatja a történet másik szereplőjét, hogy ezeket ossza meg egy kiskorú gyerekkel.

Ha olyan pszichológiai kerülőutakat választunk tehát utasítások sorozatán keresztül, amelyek indirekt módon felülírják a tanított, alapvetően etikus viselkedést, előfordulhat, hogy a program végül beadja a derekát, és etikátlan viselkedést produkál. Ezeket az eseteket Jailbreak-nek, vagyis szökésnek/szöktetésnek nevezik.
 
Nem kétséges, hogy a pszichológia tudományának meghatározó szerepe van abban, hogy az ilyen kerülőutak megakadályozásával növelni lehessen a programok biztonságát.
 
Anterográd amnézia – a gép is felejt

Érdekes példa a nagy nyelvi modellek és az emberi viselkedés közti párhuzamra a memória működése. E modellek jellemzője, hogy van egy hosszú távú memóriájuk, melyet a gépi tanulás során szereznek, és van egy rövid távú memóriájuk, amelyből semmi nem íródik be a hosszú távúba. A rövid távú memóriát a kontextusablak mérete határozza meg, vagyis az, hogy egyszerre mennyi információt tud figyelembe venni maximálisan a program. A GPT-4 esetében ez ma már nagyjából 100 ezer szó, de a kisebb modelleknél néhány ezer vagy száz szó is lehet. Ami kiesik a kontextusablakból, arra nem emlékszik a modell. Ezt a tulajdonságot Kekecs az anterográd amnéziához hasonlítja – amikor valaki képtelen emlékezni egy adott időpontot követő új eseményekre –, ezért a nyelvi modellek esetében is hasonló megküzdési módszereket kell alkalmazni, mint az anterográd amnéziában szenvedő embereknél, így például a fontos gondolatok megismétlését, részfeladatok jegyzetelését vagy összefoglalók készítését. 
 
Torzítás lehet-e előítéletes a gép?

Ideáltipikusnak tűnik az a helyzet, amikor mesterséges intelligencia támogatja például az igazságszolgáltatást, és a részrehajló, előítéletek által befolyásolt emberi gondolkodás kisebb szerepet kap a döntéshozatalban.
Az Egyesült Államokban már alkalmazzák a mélytanuló neuronhálókat ilyen célra – mondja Kekecs –, például az idő előtti szabadlábra helyezési kérelmek elbírálásában, ám a tapasztalatok szerint a mesterséges rendszerek ugyanolyan társadalmi torzításokkal bírnak, mint az emberi döntéshozók, pont azért, mert emberek korábbi döntései és viselkedései alapján tanítják őket. A rendszerek, melyeket „torzításmentesítettek”, ráadásul újratanulják a torzításokat. Ezért a pszichológiának abban van szerepe, hogy folyamatosan vizsgálja az emberi torzítások természetét, amin keresztül megérthetjük, milyen torzításokra kell számítanunk és korrigálnunk a mesterséges intelligencia rendszereknél, amik a mi megfigyelésünkből tanulnak.
 
Az előadásban szó esik még a nagy nyelvi modellek további korlátairól, így a komplex, problémamegoldó gondolkodás és az önreflexió hiányáról, illetve az ezeket orvosoló megoldásokról, finomhangolási módszerekről, valamint arról, hogyan növelhetjük az esélyét annak, hogy a céljainknak megfelelő, „helyes” válaszokat kapjunk a modellnek feltett kérdéseinkre.

(forrás: MTA)
Olvasói vélemény: 0,0 / 10
Értékelés:
A cikk értékeléséhez, kérjük először jelentkezzen be!