MI segítségével működő chatbotok adatvédelmi megfelelősége
Az olasz adatvédelmi hatóság (Garante) 2025. májusában 5 millió EUR bírságot szabott ki a Luka Inc. nevű atkezelőre a Replika nevű, generatív MI-modellre épülő chatbotjának működtetésével kapcsolatban.
(A hatósági határozat elérhető ITT.)
A Replika chatbot „virtuális társat” hoz létre, akit a felhasználó barátként, terapeutaként, partnerként vagy mentorként konfigurálhat, és írásbeli vagy hangalapú felületen keresztül kommunikálhat vele. A chatbot ennek nyomán képes például nyomon követni a felhasználó hangulatát és javítani rajta, segít továbbá a felhasználónak megküzdési stratégiákat elsajátítani (pl. stresszkezelés), csillapítani szorongását, és célokat kitűzni számára (pl. pozitív gondolkodás, szocializáció, szerelem).
Hogyan működik az MI-alapú chatbot – adatvédelmi szempontból?
Az adatvédelmi hatóság megállapításainak ismertetése előtt röviden bemutatjuk a chatbot működésének adatvédelmi szempontú leírását, mert hasznos lehet a chatbot fejlesztők és üzemeltetők számára saját adatvédelmi dokumentációjuk kidolgozása során.
- Adatok és adatkezelési célok: a Replika chatbot a felhasználó által küldött, és az MI-modell segítségével elemzett üzeneteket és tartalmakat (pl. felhasználói profil, érdeklődési kör, preferenciák, kérdések, válaszok és témák) használja fel a beszélgetések („chatbot interakciók”) lebonyolításához. Az adatkezelő emellett az üzenetekből és tartalmakból „személytelenített” adatokat hoz létre, a chatbot működésének alapjául szolgáló nagy nyelvi modell (LLM) fejlesztésére („modellfejlesztés”).
- A „személytelenített adatok” jellege: (i) a felhasználók reakciói („tetszik”, „nem tetszik”, „szeretem”, „vicces”, „értelmetlen” vagy „sértő”); (ii) a felhasználók elégedettségi visszajelzései („boldog”, „semleges” vagy „szomorú”); és (iii) a beszélgetésekből kiválasztott, a reakciók és visszajelzések értelmezéséhez kontextust biztosító rövid „töredékek” („snippets”). A „személytelenített” adatok a személyazonosításra alkalmas elemeknek a „töredékekből” való eltávolításával, és a „töredékek” véletlenszerű sorrendben történő összekeverésével keletkeznek.
- A „modellfejlesztés” mint adatkezelés lépései: (i) az adatok gyűjtése, (ii) az adatok előfeldolgozása (tisztítása, strukturálása és a személyazonosításra alkalmas elemek eltávolítása – aggregálással és véletlenszerűsítéssel), (iii) az adatok címkézése, (iv) az adatok elemzése (az LLM teljesítményének értékelése, mintázatok azonosítása, a nem megfelelő kimenetek előállítását megakadályozó szűrők fejlesztése); valamint (v) rendszeres tesztelés és validálás (előre meghatározott kritériumok alapján). A nem megfelelő kimenetek szűrését elősegítő folyamat részeként az adatkezelő a gépi tanulási modellek biztonságának és robusztusságának javítása érdekében nyílt forráskódú, kifejezetten az MI kutatási közösség számára létrehozott adatkészleteket használ. A szűrők fel kell ismerjék például az önkárosítással, sértő tartalommal vagy emberöléssel összefüggő kulcsszavakat, kifejezéseket és mintázatokat, és úgy kell irányítsák az LLM modellt, hogy megfelelő módon – például témaváltással vagy önsegítő források ajánlásával – reagáljon az ilyen tartalmakra.
Milyen jogszerűtlen gyakorlatokat azonosított a hatóság az MI-alapú chatbottal kapcsolatban?