Operator od OpenAI

Operator od OpenAI
Twórca ChatGPT wypuścił swojego "Operatora". Jeśli zastanawiasz się, czy to ważne, to odpowiadamy TAK. Jest to kolejny element układanki rozwoju AI w drodze do podniesienia efektywności wykonania zadań, w tym także zadań testerskich.

Według definicji operator to człowiek obsługujący urządzenie i tym dokładnie jest to rozwiązanie. „Operator” to program obsługujący własną przeglądarkę do realizowania określonych zadań podyktowanych przez użytkownika. 

Do tej pory ChatGPT funkcjonował przede wszystkim jako narzędzie generatywnej sztucznej inteligencji. Na podstawie wprowadzanych poleceń (promptów) i wykorzystując możliwości swojego modelu językowego (LLM), a później również dzięki dostępowi do internetu, potrafił tworzyć różnorodne odpowiedzi i materiały cyfrowe, w tym grafiki. Naturalnym kierunkiem rozwoju było przejście od samego generowania treści do faktycznego wykonywania zadań. I właśnie to zostało osiągnięte! Teraz ChatGPT nie tylko odpowiada na pytania, ale także aktywnie realizuje polecenia użytkowników - zamienia wprowadzone instrukcje w konkretne działania.

Przykładowe zadanie (use case):

UŻYTKOWNIK: Hej Chat, znajdź mi wolny termin na dobre zajęcia jogi w
okolicy.

OPERATOR: Najbliższy wolny termin to wtorek 10:00, w Joga Park [adres]

UŻYTKOWNIK: Zarezerwuj.

Pierwsza część działania programu może przypominać dość złożone wyszukiwanie. Jednak prawdziwy przełom widać w drugiej części, gdzie Operator samodzielnie porusza się po stronie internetowej, znajduje funkcję rezerwacji i przeprowadza cały proces wyboru opcji. To pokazuje, jak oprogramowanie może przejmować coraz bardziej złożone zadania, dotychczas wykonywane wyłącznie przez człowieka.

Kolejnym przykładem możliwości Operatora jest proces uzyskiwania zwrotu, który pokazuje znacznie większą złożoność działania. W tym przypadku program nie wykonuje pojedynczej operacji, lecz przeprowadza całą sekwencję kilkudziesięciu interakcji ze stroną.

operator-od-openai-1.jpg

Produkt jest w fazie testów z użytkownikami, więc w nomenklaturze testerskiej możemy powiedzieć, że jesteśmy w fazie testów beta. Sami twórcy opisują swój produkt następująco: „Agent, który może przejść do sieci, aby wykonywać zadania za Ciebie. Używając własnej przeglądarki, może przeglądać stronę internetową i wchodzić z nią w interakcję, pisząc, klikając i przewijając stronę. Obecnie jest to wersja zapoznawcza, co oznacza, że ma ograniczenia i będzie ewoluować w oparciu o opinie użytkowników. Operator jest jednym z naszych pierwszych agentów, czyli SI zdolnych do samodzielnego wykonywania pracy za Ciebie — dajesz mu zadanie, a on je wykonuje.

Operator może zostać poproszony o obsługę szerokiej gamy powtarzalnych zadań przeglądarki, takich jak wypełnianie formularzy, zamawianie artykułów spożywczych, a nawet tworzenie memów. Możliwość korzystania z tych samych interfejsów i narzędzi, z którymi ludzie wchodzą w interakcję na co dzień, poszerza używalność SI, pomagając ludziom oszczędzać czas na codziennych zadaniach, jednocześnie otwierając nowe możliwości działań firm.”

Jak to działa? 

Operator jest napędzany nowym modelem o nazwie Computer-Using Agent (CUA). Łącząc możliwości widzenia GPT-4o z zaawansowanym rozumowaniem poprzez uczenie wzmacniające, CUA jest szkolony do interakcji z graficznymi interfejsami użytkownika (GUI) — przyciskami, menu i polami tekstowymi, które ludzie widzą na ekranie.

operator-od-openai-2.jpg

Operator funkcjonuje podobnie do ludzkiego użytkownika. „Widzi” ekran (za pomocą zrzutów ekranu) i może wchodzić w interakcję z przeglądarką (używając wszystkich działań, na jakie pozwala mysz i klawiatura). Dzięki temu może działać na dowolnej stronie internetowej bez potrzeby specjalnego dostępu do jej API. Co więcej, program potrafi samodzielnie rozwiązywać napotkane problemy i korygować własne błędy dzięki wbudowanym mechanizmom rozumowania. Jeśli jednak napotka przeszkodę, której nie może pokonać, płynnie przekazuje kontrolę z powrotem użytkownikowi. Takie podejście zapewnia efektywną współpracę między człowiekiem a programem.

Chociaż CUA jest wciąż na wczesnym etapie i ma ograniczenia, ustanawia nowe, najnowocześniejsze wyniki testów porównawczych w WebArena i WebVoyager, dwóch kluczowych testach porównawczych wykorzystania przeglądarki. WebArena i WebVoyager zostały zaprojektowane w celu oceny wydajności agentów przeglądarek internetowych w wykonywaniu zadań w świecie rzeczywistym. WebArena wykorzystuje samodzielnie hostowane witryny typu open source w trybie offline, aby naśladować scenariusze z życia wzięte w e-commerce, zarządzaniu treścią sklepu internetowego (CMS), platformach forów społecznościowych i nie tylko. 

operator-od-openai-3.jpg

WebVoyager sprawdza skuteczność działania programu na popularnych, aktywnych stronach internetowych, takich jak Amazon, GitHub czy Google Maps.

operator-od-openai-4.jpg

Operator, korzystając ze standardowego interfejsu graficznego oraz sterowania myszą i klawiaturą, osiąga imponujące wyniki w obu testach. W WebVoyager, gdzie zadania są stosunkowo proste, uzyskuje wysoki wskaźnik skuteczności - 87%. W bardziej wymagającym teście WebArena radzi sobie z 58,1% zadań.

Choć wyniki te są obiecujące, szczególnie w prostszych zadaniach WebVoyager, to wciąż istnieje znacząca różnica między skutecznością Operatora a człowieka w bardziej złożonych wyzwaniach stawianych przez WebArena. Operator ciągle wymaga udoskonaleń, by zniwelować różnice w stosunku do wyników osiąganych przez człowieka w bardziej złożonych testach porównawczych, takich jak WebArena.

operator-od-openai-5.jpg

Jak korzystać?

Aby rozpocząć, po prostu opisz zadanie, które chcesz wykonać, a Operator zajmie się resztą. Użytkownicy mogą przejąć kontrolę nad zdalną przeglądarką w dowolnym momencie, a Operator jest przeszkolony, aby proaktywnie prosić użytkownika o przejęcie zadań wymagających logowania, danych płatniczych lub rozwiązywania CAPTCHA (!).

Użytkownicy mogą personalizować swoje przepływy pracy w Operatorze, dodając niestandardowe instrukcje, zarówno dla wszystkich witryn, jak i dla określonych, takich jak ustawianie preferencji dla linii lotniczych. Operator umożliwia użytkownikom zapisywanie monitów w celu szybkiego dostępu na stronie głównej, co jest idealne w przypadku powtarzających się zadań, takich jak uzupełnianie artykułów spożywczych w sklepie. Operator potrafi pracować wielozadaniowo, podobnie jak człowiek korzystający z wielu kart w przeglądarce. Użytkownicy mogą uruchomić kilka równoległych konwersacji, w ramach których program wykonuje różne zadania jednocześnie.

Użytkownicy i strony

OpenAI współpracuje z takimi firmami takimi jak DoorDash, Instacart, OpenTable, Priceline, Thumbtack, Uber i innymi, aby sprawdzić, czy Operator odpowiada na rzeczywiste potrzeby i szanując ustalone normy. Na stronie możemy przeczytać: „Oprócz tej współpracy widzimy duży potencjał poprawy dostępności i wydajności niektórych przepływów pracy, szczególnie w aplikacjach sektora publicznego. Aby zbadać te przypadki użycia dalej, współpracujemy z organizacjami takimi jak Miasto Stockton, aby ułatwić rejestrację w usługach i programach miejskich". Można więc założyć, że przypadki, w których Operator się „zatnie” mogą być jednocześnie sytuacjami, w jakich wybrana część użytkowników również napotka trudności, co z kolei może być podstawą do zaraportowania defektu. Jest to szansa zarówno na poprawę dla Operatora jak i dla strony, na której wykonywana jest operacja.

Zagrożenia w użyciu

Wprawne oko może dostrzec potencjalne ryzyko związane z użyciem przez Operatora danych użytkownika. OpenAI odpowiada na to trzema warstwami zabezpieczeń zapobiegającym nadużyciom i zapewniającym użytkownikom pełną kontrolę:

  1. Operator jest szkolony, aby zapewnić, że osoba z niego korzystająca zawsze ma kontrolę i prosi o podanie danych w krytycznych punktach.
    • Tryb przejęcia: Operator prosi użytkownika o przejęcie podczas wprowadzania poufnych informacji do przeglądarki, takich jak dane logowania lub informacje o płatności. W trybie przejęcia Operator nie zbiera ani nie robi zrzutów ekranu informacji wprowadzanych przez użytkownika.
    • Potwierdzenia użytkownika: Przed sfinalizowaniem jakiejkolwiek istotnej czynności, takiej jak złożenie zamówienia lub wysłanie wiadomości e-mail, Operator powinien poprosić o zatwierdzenie.
    • Ograniczenia zadań: Operator jest szkolony, aby odrzucać pewne wrażliwe zadania, takie jak transakcje bankowe lub wymagające ważnych decyzji, takich jak podejmowanie decyzji w sprawie aplikacji o pracę.
    • Tryb obserwowania: W przypadku szczególnie wrażliwych witryn, takich jak e-mail lub usługi finansowe, Operator wymaga ścisłego nadzoru nad swoimi działaniami, co pozwala użytkownikom na bezpośrednie wychwycenie potencjalnych błędów.
  2. Ułatwienia zarządzania prywatnością danych w Operatorze.
    • Zaimplementowano funkcję rezygnacji ze szkolenia: Wyłączenie opcji „Popraw model dla wszystkich” w ustawieniach ChatGPT oznacza, że dane w Operatorze nie będą wykorzystywane do trenowania modeli.
    • Przejrzyste zarządzanie danymi: Użytkownicy mogą usunąć wszystkie dane przeglądania i wylogować się ze wszystkich witryn jednym kliknięciem w sekcji Prywatność w ustawieniach Operatora. Poprzednie konwersacje w Operatorze można również usunąć jednym kliknięciem.
  3. Zabezpieczenia przed wrogimi witrynami, które mogą próbować wprowadzić Operatora w błąd za pomocą ukrytych monitów, złośliwego kodu lub prób phishingu.
    • Ostrożna nawigacja: Operator został zaprojektowany tak, aby wykrywać i ignorować wstrzyknięcia monitów.
    • Monitorowanie: Dedykowany „model monitorujący” monitoruje podejrzane zachowania i może wstrzymać zadanie, jeśli coś wydaje się nie tak.
    • Proces wykrywania: Zautomatyzowane i realizowane przez ludzi procesy przeglądu stale identyfikują nowe zagrożenia i szybko aktualizują zabezpieczenia.

Twórcy zdają sobie sprawę, że użytkownicy ze złymi intencjami mogą próbować nadużywać technologii. Zaprojektowali Operatora tak, aby odrzucał szkodliwe żądania i blokował niedozwolone treści. Systemy moderacji mogą wydawać ostrzeżenia, a nawet cofać dostęp w przypadku powtarzających się naruszeń, a dodatkowe procesy przeglądu mają na celu wykrywania i rozwiązywania nadużyć. 

Chociaż Operator został zaprojektowany z tymi zabezpieczeniami, żaden system nie jest bezbłędny. 

Operator, a testowanie

Jeśli kojarzysz rodzaje testerów oprogramowania, to zapewne taka rola jak „operator testów” nie jest Ci obca (więcej https://testerzy.pl/baza-wiedzy/artykuly/rodzaje-testerow-oprogramowania). Podobieństwo między Operatorem od OpenAI oraz  operatorem testów nie jest przypadkowe. Ani jeden, ani drugi operator nie jest twórczy w interakcji z przeglądarką, a jedynie wykonuje polecenia. Jednak wykonywanie poleceń to jest dokładnie to, czego potrzebowaliśmy, aby zwiększyć możliwości AI. Operator testów był jedynie interfejsem między przypadkiem testowym, a programem, jaki miał sprawdzić. Tym interfejsem staje się właśnie Operator.

Możliwość interakcji z różnym oprogramowaniem była dotąd brakującym elementem w procesie automatyzacji testowania. Sukces tego projektu można rozpatrywać na dwa sposoby: jako potencjalne zagrożenie dla zawodu testera lub jako szansę na znaczące zwiększenie efektywności naszej pracy. Komentarz Radka Smilgina: „To rozwiązanie jest brakującym ogniwem w ewolucji narzędzi testowania. Jest to nasza wielka szansa do zmierzenia się z problemem nieskończoności testowania”.

Operator jest obecnie dostępny w ChatGPT w wersji PRO na terenie Stanów  Zjednoczonych. OpenAI planuje w przyszłości rozszerzenie dostępu na użytkowników Plus, Team i Enterprise oraz zintegrowanie tych możliwości z ChatGPT .

Źródła:
https://operator.chatgpt.com
https://webarena.dev
https://langchain-ai.github.io/langgraph/tutorials/web-navigation/web_voyager/#define-tools
https://openai.com/index/computer-using-agent/
https://openai.com/index/introducing-operator/

To powinno Cię zainteresować