#llm

Czy Twoje testy bezpieczeństwa nadążają za AI?

Czy wiedziałeś, że niewidoczny, biały tekst ukryty w pliku PDF może zmusić Twój model AI do zignorowania wszystkich instrukcji bezpieczeństwa? Jeśli myślisz, że standardowy pentest to wykryje – mamy dla Ciebie ważne (i nieco niepokojące) wieści.

LLMOps w praktyce. Jakość, monitoring i testowanie modeli językowych (cz. 2)

Samo wdrożenie modelu językowego to dopiero początek. W tej części przyglądamy się jakości odpowiedzi, monitorowaniu systemu oraz problemom, które pojawiają się dopiero na produkcji.

Agentic testing. Wieloagentowa pętla doskonalenia testów

Generowane przez LLM testy mają niewielką przydatność przy pierwszym uruchomieniu. Rozwiązaniem mogą być testy oparte na agentach, którym zlecamy nie tylko generację i uruchomienie testów, ale również ich poprawki.

LLMOps w praktyce. Od prototypu do systemu produkcyjnego (cz. 1)

Duże modele językowe łatwo uruchomić, ale trudno utrzymać na produkcji. LLMOps porządkuje ten obszar – od danych po komponenty systemu – i pokazuje, co naprawdę decyduje o stabilności rozwiązania.

LLM-y w testowaniu dostępności

Czy GPT-4o potrafi wykrywać błędy dostępności lepiej niż klasyczne Walidatory? Przyglądamy się badaniu, które testuje możliwości LLM-ów w automatycznym sprawdzaniu zgodności z wytycznymi WCAG.

Jak podejść do testowania LLM-ów?

Duże modele językowe (LLM) nie działają jak klasyczne aplikacje. Ich odpowiedzi są zmienne, probabilistyczne i zależne od parametrów generacji, więc nawet pozornie identyczne zapytania mogą prowadzić do różnych wyników. James Bach przypomina, że jeśli chcemy je testować uczciwie, musimy zmienić sposób myślenia.

Jak testować LLM-y?

James Bach opublikował niedawno tekst, w którym porządkuje swoje przemyślenia na temat testowania systemów opartych na dużych modelach językowych (LLM). W przeciwieństwie do dominującego w branży entuzjazmu, Bach proponuje podejście ostrożnie, krytyczne i wymagające, ale przede wszystkim merytoryczne.