Korrekt adat nélkül az AI csak feltételezés
Ma ott tartunk, hogy emberek és szervezetek szemrebbenés nélkül töltenek fel érzékeny adatokat mesterségesintelligencia‑rendszerekbe. Önéletrajzokat, teljesítményértékeléseket, belső HR-dokumentumokat, pályaorientációs jegyzeteket – néha még pszichológiai teszteredményeket is. Gyakran egy egyszerű chatfelületen, egy segítőkész AI-nak, abban a hitben, hogy ez modern, hatékony és ártalmatlan, sokszor úgy, hogy erről a szervezet nem is tud (ez az ún. „shadow AI” jelensége) .
Pedig ez az egyik legkockázatosabb gyakorlat, ami ma a szervezetekben zajlik. A rizikó nem abból fakad, hogy az AI rosszindulatú. Abból fakad, hogy fekete dobozzá válik: egy helyre öntjük az adatot, majd elfogadjuk az outputot – miközben nem tudjuk megmutatni, mi történt közben.
A fekete doboz probléma ott kezdődik, ahol a szakmai fegyelem véget ér. A felelőtlen AI‑használat sokszor nem elemzés, hanem bedobás: adat bemegy, szép szöveg kijön. Csakhogy a háttérben a legtöbb generatív modell valószínűségi alapon működik. A GPT‑típusú modelleket például alapvetően úgy tanítják, hogy egy szövegfolyamban a következő szót (pontosabban tokent) jósolják, majd finomhangolják, hogy az emberek számára hasznosabb, szabályosabb válaszokat adjanak.
Ez a működés nem oksági értelemben megértés, hanem mintázat és valószínűségi elemzések összessége.. És ebből fontos következmények jönnek. Ha nem látjuk a teljes adatutat és a kontrollokat, akkor nem tudjuk biztosan, milyen előfeldolgozás történt, milyen torzítások léptek életbe, vagy hogy a rendszer milyen korábbi mintákból építkezik. A reprodukálhatóság sem magától értetődő: még determinista beállítások mellett is ismert jelenség, hogy egyes nagy nyelvi modellek kimenete változhat ugyanarra a bemenetre.
És ami talán a legfontosabb: ha nem tudjuk megmagyarázni, miért az az eredmény született, ami, akkor az nem döntéstámogatás, hanem illúzió. Ráadásul az AI sokszor meggyőzően fogalmaz akkor is, amikor téved – ezt a fejlesztők is nyíltan tárgyalják a modellkorlátok között.
Itt lép be a szabályozás, és itt válik különösen élessé a kérdés.
Az Európai Unió AI Act-je nem egyszerű tech‑szabálykönyv. Kockázati logikát vezet be, és azt mondja: vannak területek, ahol a tét túl nagy ahhoz, hogy a fekete doboz intuíciójára bízzunk embereket. Az oktatásban és a foglalkoztatásban használt AI rendszereket a rendelet ezért kiemelten kezeli; például a toborzásban a jelentkezések szűrése, a jelöltek értékelése vagy a munkavállalók teljesítményének monitorozása tipikusan magas kockázatú (high‑risk) felhasználásként jelenik meg.
A high‑risk logika lényege nagyon egyszerűen így mondható el: ha a rendszer döntést, életutat, megélhetést befolyásolhat, akkor nem elég, hogy jól hangzik az output. Bizonyítani kell, hogy a folyamat kontrollált.
Az AI Act ezért nem kerülgeti a kulcsterületeket. Elvár többek között:
folyamatos kockázatmenedzsmentet,
adatminőségi és adatirányítási fegyelmet (nem mindegy, miből tanul a rendszer),
nyomon követhetőséget (logok, eseményrögzítés),
átláthatóságot a használók felé (képességek, korlátok, ismert kockázatok),
és emberi felügyeletet úgy, hogy az valóban képes legyen megakadályozni a túlzott automatikus kimenetre való támaszkodás kockázatát (az ún. „automation bias” jelenséget).
Most jön a valódi töréspont: ha mindez igaz, akkor a kérdés nem az, hogy van‑e AI, hanem az, hogy milyen adatból számol, és a folyamat mennyire védhető.
Mert az AI nem attól lesz okos, hogy magabiztosan fogalmaz. Attól sem, hogy gyors. A döntési helyzetekben a minőség leggyakrabban azon múlik, hogy az input mennyire mérési minőségű: célhoz kötött, strukturált, kontextusban értelmezett, és torzítások ellen védett. És ezt a jogi keret is visszaigazolja: a GDPR adattakarékossági és célhoz kötöttségi elve, az automatizált döntésekre vonatkozó korlátok, valamint az EDPB és EDPS friss állásfoglalásai mind abba az irányba mutatnak, hogy a mindent feltöltök hozzáállás kockázatos és nehezen védhető.
Itt érthető meg, miért veszélyes az önbevallásra épített adat túlsúlya. Az önbevallás fontos lehet motiváció, érdeklődés, szubjektív élmény esetén – de a szakirodalom régóta leírja, hogy az önbevallásos mérés sérülékeny társas kívánatosságra és szisztematikus válasz-torzításokra. Kiválasztási kontextusban pedig a faking jelenség konkrétan rangsorokat tud eltolni.
Ami ebből következik: ha a bemenet torz, zajos vagy kontextus nélküli, akkor az AI nem jobb döntést hoz, hanem gyakran csak magabiztosabb hibát ad. És a fekete doboz itt válik igazán veszélyessé: az eredményt nehezebb megkérdőjelezni, mert nincs tiszta oksági lánc, nincs transzparens mérési folyamat, nincs megmutatható kontroll.
Ezen a ponton válik fontossá a „measurement‑first” szemlélet.
A PractiWork mindig a méréssel kezdi. Nem azt kérdezi: Mit gondolsz magadról?, hanem azt próbálja rögzíteni: Hogyan működsz valójában? Standardizált, kontrollált környezetben, olyan módon, hogy a kapott eredmény AI nélkül is értelmezhető legyen – és hogy az AI legfeljebb összefüggéseket emeljen ki, ne helyettesítse a döntés indoklását.
A PractiWork célja éppen a munkareleváns paraméterek mérése és a munkaerő-kiválasztás/fejlesztés támogatása, és a kommunikáció középpontjában a mérési darabszámok és a mérési jellemzők állnak. A rendszer modern adatelemző technikákat és gépi tanulást is használ, miközben objektív mérési folyamatot és magas szintű adatvédelmet nyújt.
A lényeg nem az, hogy van benne AI, hanem az, hogy nem engedi, hogy az ember eltűnjön a fekete dobozban. Ha el tudod mondani, hogy AI nélkül is ide jutottunk volna, hogy a mérési adat ezt mutatja, és hogy az AI legfeljebb egy értelmezési réteget, mintázatot vagy alternatívát tett hozzá, akkor az AI a helyén van: nagyító, nem kormánykerék.
És pontosan ez ma a különbség hype és valóság között. Adat nélkül az AI csak vélemény. A döntési minőség pedig nem ott kezdődik, hogy milyen modellnevet írunk a beszerzési dokumentumba, hanem ott, hogy a bemenetünk mennyire mérhető, auditálható, arányos és védhető — szakmailag, etikailag, és egyre inkább jogilag is.
Felhasznált hivatkozások
Coles, C. (2023, June 18). 11% of data employees paste into ChatGPT is confidential | Cyberhaven. Www.cyberhaven.com. https://www.cyberhaven.com/blog/4-2-of-workers-have-pasted-company-data-into-chatgpt
Doshi-Velez, F., & Kim, B. (2017). Towards A Rigorous Science of Interpretable Machine Learning. ArXiv:1702.08608 [Cs, Stat], 2(2). https://arxiv.org/abs/1702.08608
Generative AI use surges in workplaces, posing risks to employers. (2024, November 28). KPMG. https://kpmg.com/ca/en/home/media/press-releases/2024/11/gen-ai-surges-in-workplaces-posing-risks-to-employers.html
Martínez, A., & Salgado, J. F. (2021). A Meta-Analysis of the Faking Resistance of Forced-Choice Personality Inventories. Frontiers in Psychology, 12. https://doi.org/10.3389/fpsyg.2021.732241
Navigating the AI Act. (2023). Europa.eu. https://digital-strategy.ec.europa.eu/en/faqs/navigating-ai-act
Non-Determinism of “Deterministic” LLM Settings. (2023). Arxiv.org. https://arxiv.org/html/2408.04667v5
OpenAI. (2023). GPT-4 System Card OpenAI. https://cdn.openai.com/papers/gpt-4-system-card.pdf
Razavi, T. (2001). Self-report measures: An overview of concerns and limitations of questionnaire use in occupational stress research. https://eprints.soton.ac.uk/35712/1/01-175.pdf