#llm

LLM-y w testowaniu dostępności

Czy GPT-4o potrafi wykrywać błędy dostępności lepiej niż klasyczne Walidatory? Przyglądamy się badaniu, które testuje możliwości LLM-ów w automatycznym sprawdzaniu zgodności z wytycznymi WCAG.

Jak podejść do testowania LLM-ów?

Duże modele językowe (LLM) nie działają jak klasyczne aplikacje. Ich odpowiedzi są zmienne, probabilistyczne i zależne od parametrów generacji, więc nawet pozornie identyczne zapytania mogą prowadzić do różnych wyników. James Bach przypomina, że jeśli chcemy je testować uczciwie, musimy zmienić sposób myślenia.

Jak testować LLM-y?

James Bach opublikował niedawno tekst, w którym porządkuje swoje przemyślenia na temat testowania systemów opartych na dużych modelach językowych (LLM). W przeciwieństwie do dominującego w branży entuzjazmu, Bach proponuje podejście ostrożnie, krytyczne i wymagające, ale przede wszystkim merytoryczne.