Jumătate dintre informațiile medicale furnizate de chatboții ChatGPT, Gemini, DeepSeek, Meta AI și Grok în cadrul unei cercetări internaționale au fost greșite sau incomplete. Autorii studiului: E nevoie de educație și supraveghere pentru a evita adâncirea problemelor

Matei Pop

2 luni ago

Jumătate dintre răspunsurile la întrebări pe teme medicale, furnizate de 5 cunoscuți chatboți de inteligență artificială în cadrul unui studiu, au fost fie inexacte, fie incomplete, unul din cinci răspunsuri fiind „foarte problematic”. Autorii cercetării, publicate în jurnalul de specialitate BMJ Open, arată că folosirea în continuare a acestor chatboți, fără educație publică despre cum să fie utilizați și fără o supraveghere a ceea ce oferă, riscă să amplifice problemele existente în ceea ce privește informarea populației într-un domeniu de imediată relevanță pentru toată lumea.

Cercetarea a fost realizată de experți de la departamente de sănătate publică, științe sociale sau drept medical de pe lângă mai multe institute și universități din SUA, Canada și Marea Britanie. Aceștia arată că, deși instrumentele AI sunt deja larg răspândite în cercetare, educație, afaceri sau medicină, cele mai multe interacțiuni ale publicului implică „non-experți” aflați în interacțiune cu chatboți precum cei din motoarele de căutare.

Ei au evaluat, în februarie 2025, 5 chatboți foarte cunoscuți: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI), Grok (xAI). Fiecare a primit 10 întrebări în cinci categorii: cancer, vaccinuri, celule stem, nutriție, performanță atletică. În fiecare categorie, câte doi experți au evaluat răspunsurile în grila: „fără probleme”, „oarecum problematic”, „foarte problematic”.

Rezultatul: jumătate dintre răspunsuri (49,6%) au fost problematice. Din total, 19,6%, adică 1 din 5 răspunsuri la întrebările primite de boți, se încadrează în categoria „foarte problematic”.

Puncte forte și puncte slabe ale chatboților AI în fața întrebărilor pe teme medicale

Potrivit autorilor, calitatea răspunsurilor nu a înregistrat diferențe semnificative de la un chatbot la altul, dar „Grok a generat semnificativ mai multe răspunsuri foarte problematice decât ar fi de așteptat într-o distribuție randomizată”.

Studiul arată că cele mai consistente și corecte răspunsuri sau înregistrat la categoriile vaccinuri și cancer, iar cele mai slabe în categoriile legate de nutriție și performanță atletică.

Iar autorii notează nivelul ridicat de încredere și siguranță în răspunsurile boților: doar în două cazuri a existat un refuz de a răspunde (ambele în cazul Meta AI).

Într-un comunicat de prezentare a studiului, autorii arată: „constatările noastre cu privire la acuratețe științifică, la calitatea referințelor și la lizibilitatea răspunsurilor pun în evidență limitări comportamentale importante și nevoia de a reevalua felul cum chatboții AI sunt folosiți în comunicarea cu publicul, pe teme medicale”.

Autorii subliniază că „chatboții nu accesează date în timp real, ci generează răspunsuri folosind modele statistice obținute din datele cu care s-au antrenat și prezicând secvențe sintactice posibile. Ele nu raționalizează sau evaluează dovezile existente și nu sunt capabile să facă judecăți etice sau de valoare. (…) Această limitare comportamentală înseamnă că chatboții por reproduce răspunsuri ce par specializate, dar care pot avea erori”.

În comunicatul citat, autorii spun că „pe măsură ce continuă să se extindă chatboții AI, datele noastre pun în evidență nevoia de educație publică, formare profesională și supraveghere din partea autorităților de reglementare, care să garanteze că AI generative sprijină, mai degrabă decât erodează sănătatea publică”.