Hír

A Chatgpt most jobban értelmezi a fényképeket, mint egy művészkritikus és egy nyomozó együttesen

A Chatgpt legutóbbi képgenerációs képességei megkérdőjelezték az AI által generált média korábbi alulteljesítését. A nemrégiben bejelentett GPT-4O modell figyelemre méltó képességeket mutat a képek nagy pontosságú értelmezésére és a vírushatásokkal való újjáépítésre, például a Studio Ghibli ihlette. Még az AI által generált képeken is elsajátítja a szöveget, amely korábban nehéz volt az AI számára. És most két új modellt indít, amelyek képesek boncolni a képeket, hogy sokkal több információt gyűjtsenek, amelyek akár emberi pillantást vethetnek.

Az OpenAi a hét elején bejelentette két új modellt, amelyek a Chatgpt gondolkodási képességeit egy bevágáshoz vezetik. Új O3 modellje, amelyet az Openai „legerősebb érvelési modelljének” nevez, javítja a meglévő értelmezési és észlelési képességeket, javul a „kódolás, matematika, tudomány, vizuális észlelés és még sok más” című részben. Eközben az O4-MINI egy kisebb és gyorsabb modell a „költséghatékony érvelés” számára ugyanabban az utakban. A hír az OpenAI nemrégiben elindította a GPT-4.1 modellek osztályát, amely gyorsabb feldolgozást és mélyebb összefüggéseket hoz.

A Chatgpt most „képekkel gondolkodik”

Az érvelés képességének fejlesztésével mindkét modell beépítheti a képeket az érvelési folyamatba, ami képessé teszi őket „képekkel való gondolkodásra” – hirdeti ki az Openai. Ezzel a változással mindkét modell integrálhatja a képeket a gondolatláncba. A képek alapvető elemzésén túlmenően az O3 és az O4-MINI modellek szorosabban vizsgálhatják meg a képeket, és akár olyan műveletek révén is manipulálhatják őket, mint például a kivágás, a nagyítás, a megfordítás vagy a részletek gazdagítása, hogy olyan képeket lehessen beolvasni, amelyek potenciálisan javíthatják a CHATGPT megoldások képességét.

Bemutatjuk az Openai O3 és az O4-Mini-t-a mai napig legokosabb és legmegfelelőbb modelljeink.

Első alkalommal az érvelési modelljeink ügynöki módon használhatják és kombinálhatják a CHATGPT -en belül minden eszközt, beleértve a webes keresést, a Python -ot, a képelemzést, a fájl értelmezését és a képgenerálást. pic.twitter.com/rdaqv0x0we

– Openai (@openai) 2025. április 16 -án

A bejelentéssel azt mondják, hogy a modellek összekeverik a vizuális és szöveges érvelést, amely integrálható más CHATGPT funkciókhoz, például a webes kereséshez, az adatok elemzéséhez és a kódgeneráláshoz, és várhatóan a multimodális elemzéssel rendelkező fejlettebb AI -szerek alapjául szolgál.

Egyéb gyakorlati alkalmazások között számíthat arra, hogy számos elemről, például folyamatábrákról vagy a kézírásos jegyzetektől a valós objektumok képeihez képeket tartalmaz, és azt várja el, hogy a CHATGPT mélyebb megértést kapjon a jobb kimenethez, még egy leíró szöveges üzenet nélkül is. Ezzel az Openai közelebb áll a Google Ikrekjéhez, amely lenyűgöző képességet kínál a való világ értelmezésére élő videókon keresztül.

A merész követelések ellenére az OpenAi csak a fizetett tagokhoz való hozzáférést korlátozza, feltehetően annak megakadályozására, hogy GPU -ja ismét „megolvadjon”, mivel az új érvelési funkciók iránti igény fenntartása érdekében küzd. Mostanáig az O3, O4-Mini és O4-Mini-High modellek kizárólag a Chatgpt Plus, a Pro és a Csapat tagjai lesznek elérhetőek, míg az Enterprise és az Education szintű felhasználók egy hét múlva megkapják. Eközben az ingyenes felhasználók korlátozott hozzáférést kaphatnak az O4-MINI-hez, amikor a „Gondolkodás” gombot választják a prompt sávban.

Back to top button