Operator od OpenAI

Twórca ChatGPT wypuścił swojego "Operatora". Jeśli zastanawiasz się, czy to ważne, to odpowiadamy TAK. Jest to kolejny element układanki rozwoju AI w drodze do podniesienia efektywności wykonania zadań, w tym także zadań testerskich.

Według definicji operator to człowiek obsługujący urządzenie i tym dokładnie jest to rozwiązanie. „Operator” to program obsługujący własną przeglądarkę do realizowania określonych zadań podyktowanych przez użytkownika.

Do tej pory ChatGPT funkcjonował przede wszystkim jako narzędzie generatywnej sztucznej inteligencji. Na podstawie wprowadzanych poleceń (promptów) i wykorzystując możliwości swojego modelu językowego (LLM), a później również dzięki dostępowi do internetu, potrafił tworzyć różnorodne odpowiedzi i materiały cyfrowe, w tym grafiki. Naturalnym kierunkiem rozwoju było przejście od samego generowania treści do faktycznego wykonywania zadań. I właśnie to zostało osiągnięte! Teraz ChatGPT nie tylko odpowiada na pytania, ale także aktywnie realizuje polecenia użytkowników - zamienia wprowadzone instrukcje w konkretne działania.

Przykładowe zadanie (use case):

UŻYTKOWNIK: Hej Chat, znajdź mi wolny termin na dobre zajęcia jogi w
okolicy.

OPERATOR: Najbliższy wolny termin to wtorek 10:00, w Joga Park [adres]

UŻYTKOWNIK: Zarezerwuj.

Pierwsza część działania programu może przypominać dość złożone wyszukiwanie. Jednak prawdziwy przełom widać w drugiej części, gdzie Operator samodzielnie porusza się po stronie internetowej, znajduje funkcję rezerwacji i przeprowadza cały proces wyboru opcji. To pokazuje, jak oprogramowanie może przejmować coraz bardziej złożone zadania, dotychczas wykonywane wyłącznie przez człowieka.

Kolejnym przykładem możliwości Operatora jest proces uzyskiwania zwrotu, który pokazuje znacznie większą złożoność działania. W tym przypadku program nie wykonuje pojedynczej operacji, lecz przeprowadza całą sekwencję kilkudziesięciu interakcji ze stroną.

Produkt jest w fazie testów z użytkownikami, więc w nomenklaturze testerskiej możemy powiedzieć, że jesteśmy w fazie testów beta. Sami twórcy opisują swój produkt następująco: „Agent, który może przejść do sieci, aby wykonywać zadania za Ciebie. Używając własnej przeglądarki, może przeglądać stronę internetową i wchodzić z nią w interakcję, pisząc, klikając i przewijając stronę. Obecnie jest to wersja zapoznawcza, co oznacza, że ma ograniczenia i będzie ewoluować w oparciu o opinie użytkowników. Operator jest jednym z naszych pierwszych agentów, czyli SI zdolnych do samodzielnego wykonywania pracy za Ciebie — dajesz mu zadanie, a on je wykonuje.

Operator może zostać poproszony o obsługę szerokiej gamy powtarzalnych zadań przeglądarki, takich jak wypełnianie formularzy, zamawianie artykułów spożywczych, a nawet tworzenie memów. Możliwość korzystania z tych samych interfejsów i narzędzi, z którymi ludzie wchodzą w interakcję na co dzień, poszerza używalność SI, pomagając ludziom oszczędzać czas na codziennych zadaniach, jednocześnie otwierając nowe możliwości działań firm.”

Jak to działa?

Operator jest napędzany nowym modelem o nazwie Computer-Using Agent (CUA). Łącząc możliwości widzenia GPT-4o z zaawansowanym rozumowaniem poprzez uczenie wzmacniające, CUA jest szkolony do interakcji z graficznymi interfejsami użytkownika (GUI) — przyciskami, menu i polami tekstowymi, które ludzie widzą na ekranie.

Operator funkcjonuje podobnie do ludzkiego użytkownika. „Widzi” ekran (za pomocą zrzutów ekranu) i może wchodzić w interakcję z przeglądarką (używając wszystkich działań, na jakie pozwala mysz i klawiatura). Dzięki temu może działać na dowolnej stronie internetowej bez potrzeby specjalnego dostępu do jej API. Co więcej, program potrafi samodzielnie rozwiązywać napotkane problemy i korygować własne błędy dzięki wbudowanym mechanizmom rozumowania. Jeśli jednak napotka przeszkodę, której nie może pokonać, płynnie przekazuje kontrolę z powrotem użytkownikowi. Takie podejście zapewnia efektywną współpracę między człowiekiem a programem.

Chociaż CUA jest wciąż na wczesnym etapie i ma ograniczenia, ustanawia nowe, najnowocześniejsze wyniki testów porównawczych w WebArena i WebVoyager, dwóch kluczowych testach porównawczych wykorzystania przeglądarki. WebArena i WebVoyager zostały zaprojektowane w celu oceny wydajności agentów przeglądarek internetowych w wykonywaniu zadań w świecie rzeczywistym. WebArena wykorzystuje samodzielnie hostowane witryny typu open source w trybie offline, aby naśladować scenariusze z życia wzięte w e-commerce, zarządzaniu treścią sklepu internetowego (CMS), platformach forów społecznościowych i nie tylko.

WebVoyager sprawdza skuteczność działania programu na popularnych, aktywnych stronach internetowych, takich jak Amazon, GitHub czy Google Maps.

Operator, korzystając ze standardowego interfejsu graficznego oraz sterowania myszą i klawiaturą, osiąga imponujące wyniki w obu testach. W WebVoyager, gdzie zadania są stosunkowo proste, uzyskuje wysoki wskaźnik skuteczności - 87%. W bardziej wymagającym teście WebArena radzi sobie z 58,1% zadań.

Choć wyniki te są obiecujące, szczególnie w prostszych zadaniach WebVoyager, to wciąż istnieje znacząca różnica między skutecznością Operatora a człowieka w bardziej złożonych wyzwaniach stawianych przez WebArena. Operator ciągle wymaga udoskonaleń, by zniwelować różnice w stosunku do wyników osiąganych przez człowieka w bardziej złożonych testach porównawczych, takich jak WebArena.

Jak korzystać?

Aby rozpocząć, po prostu opisz zadanie, które chcesz wykonać, a Operator zajmie się resztą. Użytkownicy mogą przejąć kontrolę nad zdalną przeglądarką w dowolnym momencie, a Operator jest przeszkolony, aby proaktywnie prosić użytkownika o przejęcie zadań wymagających logowania, danych płatniczych lub rozwiązywania CAPTCHA (!).

Użytkownicy mogą personalizować swoje przepływy pracy w Operatorze, dodając niestandardowe instrukcje, zarówno dla wszystkich witryn, jak i dla określonych, takich jak ustawianie preferencji dla linii lotniczych. Operator umożliwia użytkownikom zapisywanie monitów w celu szybkiego dostępu na stronie głównej, co jest idealne w przypadku powtarzających się zadań, takich jak uzupełnianie artykułów spożywczych w sklepie. Operator potrafi pracować wielozadaniowo, podobnie jak człowiek korzystający z wielu kart w przeglądarce. Użytkownicy mogą uruchomić kilka równoległych konwersacji, w ramach których program wykonuje różne zadania jednocześnie.

Użytkownicy i strony

OpenAI współpracuje z takimi firmami takimi jak DoorDash, Instacart, OpenTable, Priceline, Thumbtack, Uber i innymi, aby sprawdzić, czy Operator odpowiada na rzeczywiste potrzeby i szanując ustalone normy. Na stronie możemy przeczytać: „Oprócz tej współpracy widzimy duży potencjał poprawy dostępności i wydajności niektórych przepływów pracy, szczególnie w aplikacjach sektora publicznego. Aby zbadać te przypadki użycia dalej, współpracujemy z organizacjami takimi jak Miasto Stockton, aby ułatwić rejestrację w usługach i programach miejskich". Można więc założyć, że przypadki, w których Operator się „zatnie” mogą być jednocześnie sytuacjami, w jakich wybrana część użytkowników również napotka trudności, co z kolei może być podstawą do zaraportowania defektu. Jest to szansa zarówno na poprawę dla Operatora jak i dla strony, na której wykonywana jest operacja.

Zagrożenia w użyciu

Wprawne oko może dostrzec potencjalne ryzyko związane z użyciem przez Operatora danych użytkownika. OpenAI odpowiada na to trzema warstwami zabezpieczeń zapobiegającym nadużyciom i zapewniającym użytkownikom pełną kontrolę:

Operator jest szkolony, aby zapewnić, że osoba z niego korzystająca zawsze ma kontrolę i prosi o podanie danych w krytycznych punktach.
- Tryb przejęcia: Operator prosi użytkownika o przejęcie podczas wprowadzania poufnych informacji do przeglądarki, takich jak dane logowania lub informacje o płatności. W trybie przejęcia Operator nie zbiera ani nie robi zrzutów ekranu informacji wprowadzanych przez użytkownika.
- Potwierdzenia użytkownika: Przed sfinalizowaniem jakiejkolwiek istotnej czynności, takiej jak złożenie zamówienia lub wysłanie wiadomości e-mail, Operator powinien poprosić o zatwierdzenie.
- Ograniczenia zadań: Operator jest szkolony, aby odrzucać pewne wrażliwe zadania, takie jak transakcje bankowe lub wymagające ważnych decyzji, takich jak podejmowanie decyzji w sprawie aplikacji o pracę.
- Tryb obserwowania: W przypadku szczególnie wrażliwych witryn, takich jak e-mail lub usługi finansowe, Operator wymaga ścisłego nadzoru nad swoimi działaniami, co pozwala użytkownikom na bezpośrednie wychwycenie potencjalnych błędów.
Ułatwienia zarządzania prywatnością danych w Operatorze.
- Zaimplementowano funkcję rezygnacji ze szkolenia: Wyłączenie opcji „Popraw model dla wszystkich” w ustawieniach ChatGPT oznacza, że dane w Operatorze nie będą wykorzystywane do trenowania modeli.
- Przejrzyste zarządzanie danymi: Użytkownicy mogą usunąć wszystkie dane przeglądania i wylogować się ze wszystkich witryn jednym kliknięciem w sekcji Prywatność w ustawieniach Operatora. Poprzednie konwersacje w Operatorze można również usunąć jednym kliknięciem.
Zabezpieczenia przed wrogimi witrynami, które mogą próbować wprowadzić Operatora w błąd za pomocą ukrytych monitów, złośliwego kodu lub prób phishingu.
- Ostrożna nawigacja: Operator został zaprojektowany tak, aby wykrywać i ignorować wstrzyknięcia monitów.
- Monitorowanie: Dedykowany „model monitorujący” monitoruje podejrzane zachowania i może wstrzymać zadanie, jeśli coś wydaje się nie tak.
- Proces wykrywania: Zautomatyzowane i realizowane przez ludzi procesy przeglądu stale identyfikują nowe zagrożenia i szybko aktualizują zabezpieczenia.

Twórcy zdają sobie sprawę, że użytkownicy ze złymi intencjami mogą próbować nadużywać technologii. Zaprojektowali Operatora tak, aby odrzucał szkodliwe żądania i blokował niedozwolone treści. Systemy moderacji mogą wydawać ostrzeżenia, a nawet cofać dostęp w przypadku powtarzających się naruszeń, a dodatkowe procesy przeglądu mają na celu wykrywania i rozwiązywania nadużyć.

Chociaż Operator został zaprojektowany z tymi zabezpieczeniami, żaden system nie jest bezbłędny.

Operator, a testowanie

Jeśli kojarzysz rodzaje testerów oprogramowania, to zapewne taka rola jak „operator testów” nie jest Ci obca (więcej https://testerzy.pl/baza-wiedzy/artykuly/rodzaje-testerow-oprogramowania). Podobieństwo między Operatorem od OpenAI oraz operatorem testów nie jest przypadkowe. Ani jeden, ani drugi operator nie jest twórczy w interakcji z przeglądarką, a jedynie wykonuje polecenia. Jednak wykonywanie poleceń to jest dokładnie to, czego potrzebowaliśmy, aby zwiększyć możliwości AI. Operator testów był jedynie interfejsem między przypadkiem testowym, a programem, jaki miał sprawdzić. Tym interfejsem staje się właśnie Operator.

Możliwość interakcji z różnym oprogramowaniem była dotąd brakującym elementem w procesie automatyzacji testowania. Sukces tego projektu można rozpatrywać na dwa sposoby: jako potencjalne zagrożenie dla zawodu testera lub jako szansę na znaczące zwiększenie efektywności naszej pracy. Komentarz Radka Smilgina: „To rozwiązanie jest brakującym ogniwem w ewolucji narzędzi testowania. Jest to nasza wielka szansa do zmierzenia się z problemem nieskończoności testowania”.

Operator jest obecnie dostępny w ChatGPT w wersji PRO na terenie Stanów Zjednoczonych. OpenAI planuje w przyszłości rozszerzenie dostępu na użytkowników Plus, Team i Enterprise oraz zintegrowanie tych możliwości z ChatGPT .

Nazwa	Opis
PHPSESSID	Ciasteczko pozwalające na zapamiętywanie danych dotyczących stanu sesji.
_GRECAPTCHA	Ciasteczko pomagające zabezpieczyć formularze na stronie.
cookie_law_confirmed	Ciasteczko służące do wyświetlania tego okienka.
cookie_law_google_analytics	Ciasteczko zapamiętujące stan zgody użytkownika dotyczącej Google Analytics.
cookie_law_disqus	Ciasteczko zapamiętujące stan zgody użytkownika dotyczącej Disqus.
cookie_law_share_this	Ciasteczko zapamiętujące stan zgody użytkownika dotyczącej ShareThis.
article_visited	Ciasteczko pomagające ustalić, które artykuły są najbardziej popularne.
service_visited	Ciasteczko pomagające ustalić, które usługi są najbardziej popularne.
event_visited	Ciasteczko pomagające ustalić, które wydarzenia są najbardziej popularne.
training_visited	Ciasteczko pomagające ustalić, które szkolenia są najbardziej popularne.
external_training_visited	Ciasteczko pomagające ustalić, które zewnętrzne szkolenia są najbardziej popularne.

Nazwy	Opis
_utma	Unikalny użytkownik. Ciasteczko to zawiera unikalny numer identyfikacyjny, dzięki któremu narzędzie potrafi określić unikalnego i nowego użytkownika. Żywotność tego ciasteczka wynosi 2 lata i zapisywane jest w przeglądarce.
_utmb	Śledzenie odwiedzin. Ciasteczko przechowuje informację na temat danej odwiedziny.
_utmc	Śledzenie odwiedzin. Jego zadaniem jest ustalenie czy rozpocząć śledzenie nowej odwiedziny, czy też zbierane dane powinny zostać zaliczone do starej. Ciasteczko wygasa po zamknięciu przeglądarki.
_utmz	Źródła odwiedzin. Ciasteczko zawiera informację na temat źródeł odwiedzin. Dzięki niemu możliwe jest policzenie odwiedzin z wyszukiwarek oraz danych z kampanii marketingowych. Jego żywotność wynosi 6 miesięcy.
_utmv	Zmienne niestandardowe. Ciasteczko pojawia się tylko wtedy kiedy na witrynie zastosujemy śledzenie niestandardowych zmiennych. Jego żywotność to 2 lata.

Operator od OpenAI

Przykładowe zadanie (use case):

Jak to działa?

Jak korzystać?

Użytkownicy i strony

Zagrożenia w użyciu

Operator, a testowanie

Powiązane szkolenia

Powiązane usługi

Seria AI w testowaniu

Popularne

Najnowsze

Bądź na bieżąco

Operator od OpenAI

Przykładowe zadanie (use case):

Jak to działa?

Jak korzystać?

Użytkownicy i strony

Zagrożenia w użyciu

Operator, a testowanie

Powiązane szkolenia

Powiązane usługi

Automatyzacja testów

Testy dostępności

Testy wydajności

Seria AI w testowaniu

Popularne

Najnowsze

Bądź na bieżąco

To powinno Cię zainteresować