ChatGPT i Gemini na egzaminie certyfikującym. Wyniki dla ISTQB® i A4Q

ChatGPT i Gemini na egzaminie certyfikującym. Wyniki dla ISTQB® i A4Q
Czy certyfikacja testerska jest ciągle wyznacznikiem kompetencji, jeśli zdaje ją model językowy? Być może nadszedł czas, by zadać sobie trudniejsze pytanie: co faktycznie mierzą te egzaminy? Umiejętność testowania czy umiejętność zapamiętywania?

W 2023 roku sprawdzaliśmy, czy GPT-4 byłby w stanie zdać egzamin ISTQB® na poziomie podstawowym. Okazało się, że tak i to z wynikiem lepszym niż przeciętny kandydat. Dwa lata później mamy kolejne dane, jeszcze szersze i bardziej wymagające. Niklas Retzlaff z Triagon Academy Malta przeprowadził badanie, które stawia konkretne pytanie: czy modele językowe potrafią nie tylko automatyzować zadania testowe, ale także rozumieć zasady testowania na profesjonalnym poziomie? Odpowiedź brzmi: tak, co więcej zdają egzaminy certyfikacyjne. GPT-4o i Gemini 2.0 Flash Experimental poradziły sobie z czterema uznanymi certyfikacjami testerskimi, od podstawowego ISTQB® CTFL, po ekspercki CTEL-TM.

Metodologia badania

Retzlaff wykorzystał egzaminy publikowane przez German Testing Board, zarówno ISTQB®, jak i A4Q. W sumie 150 pytań wielokrotnego wyboru sprawdzało kompetencje modeli na różnych poziomach zaawansowania: od podstaw teoretycznych, przez praktyczne umiejętności, aż po zarządzanie testami. 

Wybór tych konkretnych certyfikacji nie był przypadkowy. ISTQB® to wciąż standard międzynarodowy, a A4Q-SDET reprezentuje kierunek łączenia umiejętności deweloperskich z testerskimi. Badanie obejmowało cztery poziomy poznawcze według taksonomii Blooma: zapamiętywanie (K1), rozumienie (K2), zastosowanie (K3) i analizę (K4). Modele otrzymały pytania w oryginalnej postaci, bez dodatkowych wyjaśnień ani dostrajania parametrów. Każda odpowiedź była jednorazowa, bez prób poprawiania czy doprecyzowania. Odzwierciedlało to realistyczny scenariusz, gdzie tester zadaje pytanie i oczekuje konkretnej, trafnej odpowiedzi. 

Wyniki

 
table-1-comparison-of-chatgpt-and-gemini-on-software-testing-practice-exams.pngtable-2-comparison-of-chatgpt-and-gemini-on-software-testing-practice-exams.png

GPT-4o zdobył maksymalną liczbę punktów w pytaniach dotyczących zapamiętywania i rozumienia pojęć (K1 i K2). Na poziomie podstawowym CTFL uzyskał 95% poprawnych odpowiedzi. Równie dobrze poradził sobie w zaawansowanym obszarze zarządzania testami (CTAL-TM), zdobywając 86,36%. Gemini zaprezentował inny profil. W egzaminie A4Q-SDET osiągnął 92,5%, pokonując GPT-4o (82,5%), co sugeruje lepsze przygotowanie do zadań technicznych. W zakresie wiedzy teoretycznej wypadł jednak słabiej. 

Szczególnie interesujące są wyniki z poziomu zastosowania wiedzy (K3), gdzie oba modele osiągnęły identyczne 75%. To rodzi ważne pytanie: czy taki margines błędu w praktycznym zastosowaniu jest akceptowalny, jeśli chcemy traktować AI jako partnera wspierającego proces testowania?

Na poziomie eksperckim (CTEL-TM) oba modele uzyskały po 80%. Taki remis może oznaczać, że w obecnym stanie technologia osiągnęła już swój sufit, jeśli chodzi o zdolność rozumienia i analizy w kontekście testowania oprogramowania. 

Profile kompetencji modeli AI

Wyniki testów pokazują dwa wyraźnie różne podejścia. GPT-4o to model silny w teorii i analizie, który osiąga bardzo dobre rezultaty w pytaniach z zakresu koncepcyjnego myślenia i scenariuszy o wysokiej złożoności (72,43% w K4 wobec 63,64% dla Gemini). Dobrze sprawdzi się jako wsparcie dla test managerów, analityków testów czy osób budujących strategie. Gemini z kolei lepiej wypada tam, gdzie liczy się praktyka. Jego przewaga w A4Q-SDET sugeruje, że lepiej odnajduje się w środowiskach, gdzie testowanie jest integralną częścią procesu wytwarzania oprogramowania. Jego bardziej wyrównane wyniki na wszystkich poziomach poznawczych mogą świadczyć o większej elastyczności, choć bez dominacji w żadnym z obszarów. 

Ryzyka

Badanie pokazuje też ograniczenia. Modele opierają się na danych treningowych, które szybko się dezaktualizują. Jeśli bazują na starszych wersjach frameworków czy sylabusów, mogą generować nieaktualne odpowiedzi. Poważne ryzyko stanową tzw. halucynacje, czyli fałszywe, ale przekonująco sformułowane odpowiedzi. W testowaniu to szczególnie groźne, bo nieprawidłowa interpretacja danych czy błędna sugestia strategii może skutkować przeoczeniem poważnych defektów. 

Istotne są też kwestie bezpieczeństwa. Konsultacja z AI na temat testów systemów zawierających dane wrażliwe niesie ryzyko przypadkowego ujawnienia informacji projektowych, co może mieć poważne konsekwencje. 

Gdzie AI pomaga, a gdzie nie wystarczy

Modele mogą wspierać osoby bez formalnego przeszkolenia testerskiego, na przykład poprzez tłumaczenie podstawowych pojęć, podsuwając techniki czy poprzez pomoc w tworzeniu przypadków testowych. GPT-4o może być przydatny przy planowaniu testów albo analizie ryzyka. Gemini z kolei lepiej sprawdzi się przy pracy automatyka, rozwiązującego konkretne problemy techniczne.

Ale są też granice. Krytyczne decyzje projektowe, ocena jakości końcowej czy testy systemów o podwyższonym ryzyku nie są zadaniami, które można bezrefleksyjnie delegować do AI. Modele wspierają, ale nie zastępują kompetencji testerskich.

Wnioski

Badanie Retzlaffa nie sugeruje, że AI wyprze testerów, a raczej przeciwnie, bo raczej podkreśla potencjał współpracy. Sztuczna inteligencja może zwiększać produktywność i uzupełniać braki kompetencyjne. Wymogi certyfikacyjne będą musiały się dostosować. W przyszłości znajomość AI (nie tylko jako narzędzia, ale partnera w pracy) stanie się częścią kompetencji testerskich. Programy szkoleniowe powinny uwzględniać krytyczną analizę odpowiedzi generowanych przez modele i umiejętność ich weryfikacji. 

Tester, który chce utrzymać swoją wartość na rynku, musi umieć rozwijać to, czego AI jeszcze długo nie opanuje: twórcze podejście do projektowania testów, empatię wobec użytkownika i zdolność podejmowania decyzji w kontekście biznesowym.

Z przeprowadzonego badania płyną konkretne rekomendacje. GPT-4o może dobrze się sprawdzić jako wsparcie przy testach manualnych czy zarządzaniu jakością, zwłaszcza dla osób, które potrzebują wsparcia w organizacji pracy testerskiej. Gemini będzie bardziej użyteczny w zespołach technicznych, zwłaszcza jeśli priorytetem jest efektywność przy ograniczonym budżecie. 

Dla początkujących testerów AI może być cennym mentorem, pod warunkiem wyrobienia w sobie nawyku weryfikowania odpowiedzi w oficjalnych materiałach. Dla midów i seniorów sztuczna inteligencja stanie się szansą na przyspieszenie powtarzalnych zadań. Najważniejsze jednak to zachowanie trzeźwego spojrzenia. To, że AI zdało egzaminy certyfikacyjne nie zwalnia nikogo z odpowiedzialności za jakość dostarczanego oprogramowania. Technologia może przecież pomóc, ale w żadnym wypadku nie zastąpi myślenia. 

A MITC? Wciąż czeka na swój test. Być może w kolejnej edycji badań uda nam się go sprawdzić, pod warunkiem, że powstanie naprawdę przeszkolony testerski Agent AI. I tu warto postawić pytanie nie tylko: „czy AI zda egzamin?”, ale też „czy AI zrozumie, dlaczego niektóre odpowie są złe?”. Na to nadal potrzebna jest ludzka perspektywa.

Badanie Niklasa Retzlaffa zostało opublikowane jako preprint i oczekuje na recenzję naukową. Pełne dane są dostępne publicznie pod adresem doi.org/10.5281/zenodo.14618310. 

Z całością pracy autora badania można zapoznać się tutaj: https://www.preprints.org/manuscript/202501.0770/v1


 

To powinno Cię zainteresować