Az OpenAI Operator szörfölhet az interneten

Az OpenAI megkezdte az Operator nevű új eszköz előnézetét, amely webböngészőn belül tud navigálni. Egy csütörtökön közzétett blogbejegyzés szerint a szoftvert a cég által Computer-Using Agentnek nevezett szoftver hajtja. „A CUA-t úgy képezték ki, hogy a grafikus felhasználói felületekkel (GUI) – az emberek által a képernyőn látható gombokkal, menükkel és szövegmezőkkel – ugyanúgy kommunikáljon, mint az emberek” – mondja az OpenAI a modellről. “Ez rugalmasságot biztosít a digitális feladatok végrehajtásához operációs rendszer- vagy webspecifikus API-k használata nélkül.”
Az Operator jelenlegi kiadása az OpenAI GPT-4o modelljére épül. Az algoritmus látási képességeit ötvözi a megerősítő tanulással kiképzett „fejlett érveléssel”. Az üzemeltető képes „többlépcsős tervekre bontani a feladatokat, és adaptív módon korrigálni, ha kihívások merülnek fel”. Az OpenAI szerint ez a képesség jelenti a mesterséges intelligencia fejlesztésének következő szakaszát.
Instacart
A korábbi kutatási előzetesekhez hasonlóan az OpenAI arra figyelmeztet, hogy az Operator „még korai, és vannak korlátai”, és hogy „még nem fog megbízhatóan teljesíteni minden forgatókönyvben”. Például a feladat és az érintett interfész összetettségétől függően az ügynök nagy hasznot húz abból, ha a felhasználó néhány extra pillanatot szán egy részletesebb felszólítás megírására. A The Verge szerint az Operator a felhasználónak adja az irányítást, ha elakad egy feladat. Azt is átadja az irányítást, amikor egy webhely érzékeny információkat kér, beleértve a bejelentkezési adatokat. A vállalat azt állítja, hogy az eszközt úgy tervezték, hogy „elutasítsa a káros kéréseket és blokkolja a nem engedélyezett tartalmakat”.
Az OpenAI havi 200 dolláros ChatGPT Pro előfizetésével először az Operatort teszi elérhetővé a felhasználók számára. Emellett olyan cégekkel is együttműködik, mint az Instacart, hogy az ügynököt platformjaikon kínálhassák, bár itt is ChatGPT Pro előfizetésre lesz szükség az integráció teszteléséhez.
Az Operator csatlakozik az AI-ügynökök egyre növekvő listájához, amelyek akár egy webböngészőben, akár egy teljes operációs rendszerben navigálhatnak. Az Anthropic volt az első, aki felajánlotta ezt a képességet Claude 3.5 Sonnet modelljének októberi kiadásával, majd a közelmúltban a Google követte Gemini 2.0 modelljét és a Project Marinert.
Ha vásárol valamit a cikkben található linken keresztül, jutalékot kaphatunk.