Centrul de Evaluare și Analize Educaționale (CEAE), organizație cu experiență în evaluări educaționale, testare standardizată, programe educaționale, a publicat miercuri, 11 februarie, pe pagina de Facebook, o reacție critică la „Raportul național privind nivelul de literație științifică a elevilor din România”, realizat de firma SC Brio Teste Educaționale SA pentru UNICEF România și prezentat de Ministerul Educației și Cercetării drept „diagnostic de sistem” menit să fundamenteze politici publice.
CEAE atrage atenția că raportul conține recomandări de politici educaționale, deși nu oferă suficiente informații esențiale despre instrumentele de evaluare folosite, despre rigoarea metodologică a testelor și despre validitatea rezultatelor. Potrivit organizației, pentru ca un raport să poată susține astfel de recomandări, testele utilizate trebuie să îndeplinească standarde clare și verificabile.
„Pentru a putea face astfel de recomandări, între altele, testele utilizate trebuie să îndeplinească anumite exigențe/standarde”, arată CEAE, care precizează că se referă exclusiv la raportul privind literația științifică.
- Cele două rapoarte – „Raport național privind nivelul de literație științifică a elevilor din România” și „Raport național privind nivelul de literație digitală al elevilor din România” – au fost lansate pe 4 februarie 2026 de UNICEF România, cu sprijinul Ministerului Educației și Cercetării și al Centrului Național pentru Curriculum și Evaluare. Documentele au fost prezentate public drept „diagnostic de sistem” și „instrumente menite să fundamenteze politici publice bazate pe dovezi”. Ministerul Educației a transmis într-un comunicat că acestea reprezintă „un diagnostic esențial pentru sistemul de educație din România”, iar UNICEF a precizat ulterior, într-un răspuns către Edupedu.ro, că rapoartele „au fost elaborate pe baza metodologiilor standard utilizate în evaluările educaționale internaționale”, „au fost supuse unei revizuiri instituționale” și sunt „reprezentative la nivel național, în sens statistic, pentru populația țintă a studiului”.
Câți itemi au avut testele? Raportul nu precizează
Una dintre probleme semnalate de CEAE în reacția publicată pe 11 februarie este lipsa unor informații de bază despre testele folosite. Raportul nu precizează câți itemi au fost utilizați pentru evaluarea literației științifice și nici cum au fost construiți aceștia.
CEAE amintește că, la evenimentul de lansare, autorul principal al studiului, profesorul universitar Dragoș Iliescu, fondator și administrator al firmei Brio Teste Educaționale SRL, a menționat că pentru literația digitală au fost folosiți „32 sau 48 de itemi pe an de studiu”, însă „nu a spus nimic despre numărul de itemi utilizați pentru măsurarea nivelului de literație științifică”. De asemenea, nu există informații despre câți itemi au fost construiți inițial și câți au fost selectați în final pentru testare.
„Cu atât mai puțin să specifice câți itemi au fost construiți pentru a-i selecta pe cei incluși în teste”, subliniază CEAE.
Ce înseamnă „itemi cu funcționare neadecvată”?
Raportul afirmă că itemii au fost pilotați și că unii au fost eliminați sau revizuiți, însă fără a explica criteriile folosite. CEAE citează din raport: „Analizele realizate pe baza datelor de pilotare au permis identificarea itemilor cu funcționare neadecvată, care au fost revizuiți, reformulați sau eliminați”.
Reacția CEAE: „Ce înseamnă «funcționare neadecvată»?”. Fără definiții clare, fără indicatori și fără rezultate ale analizelor, afirmația rămâne una vagă, imposibil de evaluat din exterior.
A fost folosită Item Response Theory sau nu?
Metoda de analiză psihometrică este incertă, subliniază organizația, care amintește că, în toamna anului 2025, UNICEF a prezentat public metodologia viitoarelor studii și a menționat explicit că este avută în vedere Item Response Theory (IRT), o metodă standard în evaluările educaționale internaționale.
Cu toate acestea, „din informațiile găsite în studiu, nu rezultă că ar fi fost utilizată IRT”, arată CEAE. Organizația întreabă explicit „dacă nu au utilizat IRT, cum au determinat valoarea informativă a itemilor?”, aceasta fiind „o caracteristică importantă în orice studiu de acest tip”.
Mai mult, CEAE precizează că nu există în raport date despre valorile informative ale testelor pentru fiecare an de studiu, deși „valoarea informativă a unui test este dată de suma valorilor informative ale itemilor care-l compun”.
Probleme legate de dificultatea itemilor și calibrare
CEAE semnalează și probleme care reies din distribuția scorurilor prezentată în raport. Potrivit organizației, curbele ridică semne de întrebare legate de stabilirea nivelului de dificultate al itemilor. „Este oare posibil ca unii itemi de nivel mediu să fi fost considerați ca fiind dificili?”, întreabă reprezentanții CEAE, subliniind că raportul nu explică procedura de calibrare a itemilor.
De asemenea, nu sunt prezentate „blue-print-urile testelor utilizate pentru fiecare an de studiu”, documente esențiale care arată ce competențe sunt evaluate, prin ce tipuri de itemi și în ce proporții.
Validitate, fidelitate și condițiile reale de testare
Un alt aspect critic este legat de condițiile efective de aplicare a testelor. CEAE atrage atenția că, în testările online, elevii pot comunica între ei, pot răspunde la întâmplare sau pot trata testarea superficial, ceea ce afectează validitatea datelor. „Dacă se întâmplă așa ceva, datele rezultate sunt nevalide”, avertizează organizația, care întreabă „ce garanție avem că nu au procedat mulți elevi așa când au fost aplicate testele?”.
Potrivit CEAE, raportul nu oferă informații despre validitatea și fidelitatea testelor pentru fiecare an de studiu, deși acestea sunt criterii fundamentale pentru orice evaluare care pretinde că oferă „radiografii” ale competențelor elevilor.
Un „diagnostic de sistem” fără transparență metodologică
Reacția CEAE se adaugă unei serii de probleme semnalate anterior de Edupedu.ro cu privire la cele două rapoarte UNICEF–BRIO: lipsa clarității privind reprezentativitatea, inconsecvențe interne, recomandări generale aproape identice în cele două documente și utilizarea unor formulări eliminate ulterior fără explicații publice.
Rapoartele se bazează pe date colectate de la peste 13.000 de elevi, cu implicarea școlilor, profesorilor și resurselor din sistemul public de educație, și sunt asumate de UNICEF România și Ministerul Educației și Cercetării ca documente de referință pentru viitoare decizii.
Într-o analiză publicată miercuri, Edupedu.ro a semnalat că Raportul național privind nivelul de literație digitală al elevilor din România include pagini întregi în care textele explicative vorbesc despre „literație științifică”, deși documentul este prezentat ca o evaluare a competențelor digitale, iar graficele vizuale sunt despre competențe digitale.
Anterior, Edupedu.ro a publicat documente care arată diferențe între mesajele transmise școlilor înainte de testare și conținutul final al documentelor, neclarități privind metodologia și competențele evaluate, precum și o frază de tip conversațional care sugera utilizarea unui model AI, frază care a fost înlăturată din raport după apariția articolului, însă fără nicio precizare din partea UNICEF România.
Reacția CEAE:
„Ne vom referi doar la raportul BRIO-UNICEF despre ”literație științifică”, publicat recent. Surprinzător, autorii fac și recomandări pe partea de politici publice. Pentru a putea face astfel de recomandări, între altele, testele utilizate trebuie să îndeplinească anumite exigențe/standarde.
Sunt multe aspecte care merită analizate. Pe moment, ne uităm însă la instrumentele de testare – cât de solid/ riguros au fost construite testele pentru fiecare an de studiu. Doar folosind astfel de teste pot rezulta ”radiografii” riguroase ale nivelului competențelor elevilor (cele pe care autorii și-au propus să le măsoare).
Nu se precizează în raport câți itemi că au fost folosiți. D. Iliescu a precizat la evenimentul de lansare că pentru a măsura literația digitală, au fost folosiți 32/48 de itemi/ an de studiu. Dar n-a spus nimic despre numărul de itemi utilizați pentru măsurarea nivelului de ”literație științifică”. Cu atât mai puțin să specifice câți itemi au fost construiți pentru a-i selecta pe cei incluși în teste.
Când s-a făcut selecția itemilor, autorii spun că ”versiunile inițiale ale itemilor au fost supuse unei etape de pilotare, desfășurate pe un eșantion distinct de elevi, cu scopul de a testa claritatea formulărilor, adecvarea limbajului la nivelul de vârstă, nivelul de dificultate și funcționarea variantelor de răspuns. Analizele realizate pe baza datelor de pilotare au permis identificarea itemilor cu funcționare neadecvată, care au fost revizuiți, reformulați sau eliminați, precum și ajustarea distribuției dificultății la nivelul testelor.” Ce înseamnă ”funcționare neadecvată”?
În toamna lui 2025, UNICEF a prezentat câteva informații despre metodologia viitoarelor 2 studii; s-a precizat atunci că ”Item Response Theory (IRT) este avut în vedere”. Din informațiile găsite în studiu, nu rezultă că ar fi fost utilizată IRT. Dacă nu au utilizat IRT, cum au determinat valoarea informativă a itemilor (care este o caracteristică importantă în orice studiu de acest tip)? Nu am găsit precizări despre valorile informative ale testelor pentru fiecare an de studiu. Valoarea informativă a unui test este dată de suma valorilor informative ale itemilor care-l compun.
Curba cu distribuția scorurilor ridică un semn de întrebare legat de stabilirea nivelului de dificultate al itemilor (este oare posibil ca unii itemi de nivel mediu să fi fost considerați ca fiind dificili?!). Prin urmare, cum au procedat pentru a calibra itemii?
Nu am găsit în raport nici blue-print-urile testelor utilizate pentru fiecare an de studiu.
La teste elevii pot vorbi unii cu alții, pot răspunde la itemi la întâmplare etc. Dacă se întâmplă așa ceva, datele rezultate sunt nevalide. Ce garanție avem că nu au procedat mulți elevi așa când au fost aplicate testele? N-am găsit informații nici despre validitatea și fidelitatea testelor pentru fiecare an de studiu”.