GPT-5.2: Dette er den nye modellen som OpenAI ønsker å gjenvinne tapt terreng med

  • Akselerert lansering av GPT-5.2 etter Googles Gemini 3-fremskritt og OpenAIs interne "kode rød"-erklæring.
  • Tre hovedvarianter (Instant, Thinking og Pro) rettet mot ulike nivåer av hastighet, resonnement og profesjonell nøyaktighet.
  • Merkbare forbedringer i resonnering, koding, håndtering av lange kontekster, visjon og verktøybruk, med overlegne resultater i flere referansepunkter.
  • Trinnvis utrulling for betalende brukere og via API, med høyere priser enn GPT-5.1, men rettet mot intensiv forretningsbruk.

GPT-5.2

Løpet om å lede generativ kunstig intelligens Spenningene har økt ytterligere de siste ukene. Etter Gemini 3-oppskytningen Googles OpenAI har bestemt seg for å handle raskt og komme i forkant ankomsten GPT-5.2, en ny iterasjon av flaggskipmodellen, har som mål å styrke ChatGPTs ytelse i komplekse oppgaver, forbedre stabiliteten og redusere feil i daglig bruk.

Denne lanseringen er ikke ment som et radikalt sprang, men snarere som en betydelig oppdatering innenfor 5-serien. Kombinasjonen av en akselerert utrulling, endringer i den interne planen og et mer aggressivt fokus på resonnement og produktivitet på arbeidsplassen plasserer GPT-5.2 i sentrum av OpenAIs strategi for å unngå å tape terreng til Google, Anthropic og DeepSeek v3.2, andre aktører som har plassert seg på toppen av de tekniske rangeringene.

Rød kode i OpenAI og tidlig utgivelse: GPT-5.2

Beslutningen om å fremme GPT-5.2 er innrammet i en kontekst av maksimalt konkurransepressDen positive mottakelsen av Gemini 3 – spesielt i avanserte resonnement- og kodetester – fikk OpenAI til å internt aktivere en «kode rød». Sam Altman, selskapets administrerende direktør, sendte et notat der han ba om at ressursene skulle konsentreres om å forbedre ChatGPT, og at sekundære initiativer, som visse monetiseringseksperimenter og mindre prioriterte funksjoner på plattformen, skulle settes på vent.

Ifølge diverse lekkasjer var oppdateringen opprinnelig planlagt til slutten av desember, men ledelsen bestemte seg angivelig for fremskynde utplasseringen med noen uker for å lukke gapet i ytelse og offentlig oppfatning skapt av Googles nyeste modeller. Selv om den nøyaktige datoen alltid er underlagt mulige tekniske justeringer i siste liten, er kilder enige om at den interne tidsplanen har blitt komprimert slik at GPT-5.2 når betalende brukere og utviklere så snart som mulig.

Denne hendelsesutviklingen minner, om enn i en annen skala, om episoden i 2022, da lanseringen av ChatGPT tvang Google til å akselerere sin egen produktplan. Nå er rollene byttet om, og det er OpenAI som forsøker å... bekrefter sin referanseposisjon i et marked der ytelsesrangeringer og verktøy for modellsammenligning endres nesten daglig.

GPT-5.2, en videreutvikling innen 5-serien med fokus på kunnskapsarbeid

GPT-5.2 presenteres som en direkte fortsettelse av GPT-5.1, ikke en helt ny generasjon. Likevel insisterer selskapet på at oppdateringen representerer et betydelig fremskritt for den såkalte kunnskapsarbeidprogrammering, dokumentanalyse, økonomisk modellering, vitenskapelig forskning eller utarbeidelse av komplekse rapporter.

OpenAI hevder at modellen administrerer lange konteksterDet reduserer resonneringsfeil og forbedrer evnen til å koordinere handlingssekvenser og eksterne verktøy. Denne kombinasjonen er nøkkelen til oppgaver som går utover å svare på et enkelt spørsmål, for eksempel flertrinnsprosjekter, omfattende dokumentgjennomganger eller delvis automatisering av forretningsarbeidsflyter.

I praksis lover GPT-5.2 fremskritt i etableringen av detaljerte regneark, strukturerte presentasjoner, driftsdiagrammer og teknisk dokumentasjon, med mål om å gjøre det mulig for bedrifter å delegere mer av det «praktiske» arbeidet til modellen uten å kaste bort så mye tid på å korrigere og omskrive.

Tre varianter: Instant, Thinking og Pro

Den nye GPT-5.2-familien er organisert i tre distinkte brukslag, med den hensikt å tilpasse modellen til ulike behov og kostnadsnivåer:

  • GPT-5.2 InstantDenne versjonen prioriterer hastighet og er utviklet for hverdagslige spørsmål, generell skriving, oversettelse, informasjonsinnhenting og oppgaver der responstid er viktigere enn dyptgående resonnement. Denne varianten drar også nytte av mer stabile forklaringer og færre feil sammenlignet med tidligere versjoner.
  • GPT-5.2-tenkning: er versjonen rettet mot flertrinns resonnement og håndtering av omfattende dokumenterDet spesialiserer seg på kompleks programmering, dataanalyse, avanserte matematiske oppgaver, økonomisk modellering, kontraktsgjennomgang og langsiktig prosjektplanlegging. Det er her OpenAI fokuserer mye av sin forbedring innen konsistens og bruk av integrerte verktøy.
  • GPT-5.2 ProDen er plassert i high-end-området for spesielt krevende bruk, med fokus på høyest mulig presisjon innenfor dagens teknologiske begrensninger. Det er modellen som er rettet mot de som prioriterer resonnementskvalitet fremfor latens og er villige til å akseptere en høyere beregningskostnader, for eksempel FoU-team, spesialiserte kontorer eller komplekse vitenskapelige prosjekter.

Denne segmenteringen tar sikte på mer enn bare å tilby «en kraftigere modell»: den søker å skreddersy katalogen til ulike brukerprofiler, fra brukere som ønsker raske svar i ChatGPT til europeiske selskaper som distribuerer interne agenter på sine egne data gjennom API-et.

Ytelse i GPT-5.2-benchmarks: resonnement, kode og vitenskap

OpenAI følger med lanseringen med en mengde data som plasserer GPT-5.2 er over GPT-5.1 i nesten alle kategorier den har valgt å publisere. I vurderinger som GDPval, som sammenligner modellresultater med menneskelige fagfolk i 44 yrker, oppnår GPT-5.2 seire eller uavgjort i rundt 70,9 % av tilfellene, med betydelige forbedringer i oppgaver som involverer utarbeidelse av presentasjoner, driftsdokumenter og økonomisk materiale.

Spesialiserte tester som GPQA Diamond – fokusert på spørsmål på høyere nivå i fysikk, kjemi og biologi – GPT-5.2 Pro oppnår nesten 93 % nøyaktighetDette følges tett av Thinking-varianten, som faller litt under, men også svever rundt denne terskelen. I avansert matematikk stiger modellens poengsum i FrontierMath (nivå 1-3) til litt over 40 %, et tall som fortsatt er langt fra perfekt, men som tyder på jevn fremgang i evnen til å følge lange og strukturerte logiske kjeder.

Kodeseksjonen opplever også et sprang. I SWE-Bench Pro, som evaluerer løsning av reelle hendelser i programvarelagre Og ved å redusere risikoen for at modellen tidligere har sett dataene, forbedrer GPT-5.2 Thinking seg flere ganger i forhold til forgjengeren, og oppnår en problemløsningsrate på rundt 55,6 %. For verifiserte oppgaver stiger dette tallet til nesten 80 %, noe som i praksis betyr mindre manuell inngripen for gjennomgang av oppdateringer, refaktorering og hele komponenter.

Ved å utføre mer tekniske evalueringer, som ARC-AGI (abstrakt resonnering og mønstergjenkjenning) eller spesifikke vitenskapelige og programmeringssett, rangerer modellen over GPT-5.1 og, ifølge grafene publisert av OpenAI, foran Gemini 3. Grok 4 Fast og Claude Opus 4.5 i flere komplekse resonneringstester. Disse typene målinger, selv om de alltid kan diskuteres med tanke på representativitet, er et av de sentrale argumentene som selskapet forsøker å bruke Overbevis investorer og store kunder at rivalenes tekniske lederskap i det minste er diskutabelt.

Innvirkning på oppgaver i den virkelige verden: økonomi, dokumentanalyse og agenter

Utover tallene insisterer OpenAI på at forbedringene er merkbare i daglige oppgaverI interne simuleringer som etterligner oppgaver til finansanalytikere – som å bygge trestatsmodeller eller levered buyout-operasjoner – ville GPT-5.2 Thinking ha gått fra en gjennomsnittsscore nær 59 % til en over 68 %, noe som ville redusert beregningsfeil og behovet for påfølgende korreksjoner.

Selskaper som Notion, Box, Shopify, Harvey og Triple Whale, som allerede brukte tidligere modeller fra selskapet, har angivelig sett fremgang i stabiliteten til verktøybaserte agenterDette resulterer i bedre koordinering mellom flere API-kall, mer konsistente mellomtrinn og færre blokkeringer i lange flyter. I noen tilfeller, ifølge disse attesterne, har det vært mulig å erstatte skjøre multiagentarkitekturer med en enkelt agent støttet av GPT-5.2, med mer enn tjue tilkoblede verktøy og mindre behov for konstant overvåking.

For produkt-, support- og utviklingsteam i europeiske organisasjoner betyr denne typen endringer muligheten for å bygge interne assistenter som De behandler lange kontrakter, regulatoriske rapporter eller teknisk dokumentasjon. uten å miste tråden etter hundrevis av sider eller flere relaterte filer, noe som er spesielt relevant i regulerte sektorer som finans, helsevesen eller energi.

Visning, grafiske grensesnitt og forståelse av lange dokumenter i GPT-5.2

Den multimodale komponenten tar også et skritt fremover. I vurderinger som CharXiv Reasoning – fokusert på vitenskapelige tall – halverer GPT-5.2 tolkningsfeil sammenlignet med GPT-5.1. I ScreenSpot-Pro, en test som måler evnen til å forstå komplekse grafiske grensesnittModellen øker nøyaktigheten til tall nærmere 86 %, noe som er spesielt nyttig for avlesning av kontrollpaneler, dashbord eller programvarediagrammer.

Når det gjelder kontekstminne, nærmer GPT-5.2 seg perfekt ytelse på MRCRv2-varianter på tvers av hundretusenvis av tokens. I praksis betyr dette at den kan håndtere store tekstmengder – konsultere rapporter, filer, tekniske revisjoner eller akademisk dokumentasjon – opprettholde interne referanser og konsistens mellom seksjoner, noe mange europeiske organisasjoner ser på som en viktig betingelse for å betro sensitive prosesser til en AI-modell.

Denne kombinasjonen av forbedret visjon og større kontekstuell kapasitet åpner døren for mer ambisiøse bruksområder, som for eksempel felles gjennomgang av presentasjoner, regneark og PDF-dokumenter innenfor samme flyt, eller inspeksjon av webgrensesnitt og interne verktøy for å legge til rette for teknisk støtte og brukervennlighetsanalyse.

Færre feil, men med behov for menneskelig tilsyn

Et av løftene som oftest gjentas av selskapet er reduksjon av feil i svarOpenAI oppgir at GPT-5.2 Thinking genererer rundt 30 % færre feilaktige svar enn GPT-5.1, og at den totale andelen svar med noe unøyaktighet synker fra omtrent 8,8 % til rundt 6,2 %.

Likevel understreker selskapet at modellen forblir sannsynlighetsbasert, og at en enkelt feilaktig påstand kan kreve en manuell gjennomgang av hele resultatet, spesielt i sensitive eller regulerte sammenhenger. Det er derfor de insisterer på at GPT-5.2 bør sees på som en verktøy for resonnementstøtteikke som en erstatning for menneskelig dømmekraft, spesielt ikke innen områder som helse, finans, jus eller akademisk forskning.

På sensitive områder – for eksempel samtaler om mental helse eller emosjonell nød – hevder selskapet å ha forbedret kontroller for å minimere upassende svarHan erkjenner imidlertid at det fortsatt er rom for forbedring. Disse hensynene er spesielt relevante i Europa, der det nye regelverket for kunstig intelligens legger til ytterligere forpliktelser angående åpenhet, sikkerhet og risikostyring.

Bidrag til vitenskapelig og matematisk arbeid

OpenAI presenterer også GPT-5.2 som et verktøy designet for å fremme vitenskapelig utviklingSelskapet oppgir at Series 5 allerede hadde bruksområder innen matematikk, fysikk, biologi, informatikk, astronomi og materialvitenskap, og at med den nye versjonen blir disse tilfellene mer konsistente.

I GPQA Diamond, et av referansesettene for å vurdere avansert vitenskapelig forståelse, GPT-5.2 Pro og Thinking har en nøyaktighet på over 92 %Dette resultatet tolkes av firmaet som en indikasjon på at modellen kan hjelpe forskere med å utforske ideer, gjennomgå litteratur eller skissere bevis. I ett dokumentert tilfelle bidro GPT-5.2 Pro angivelig til å løse et åpent problem innen statistisk læringsteori, selv om dette alltid er gjenstand for senere menneskelig verifisering.

OpenAI selv presiserer imidlertid at disse systemene bør forstås som assistenter for den utforskende fasen av vitenskapelig arbeid: nyttig for å generere antagelser, omformulere hypoteser eller foreslå mellomtrinn, men uten å fortrenge ekspertenes sentrale rolle når det gjelder å validere resultater, tolke bevis og kontekstualisere konklusjoner.

Implementering i ChatGPT og tilgang via API

GPT-5.2 begynner å bli distribuert i etapper i ChatGPT for betalende brukereDette inkluderer Plus-, Pro-, Go-, Business- og Enterprise-abonnementene. Ikke alle abonnenter vil se den nye modellen samtidig, ettersom OpenAI foretrekker å aktivere tilgang i faser for å unngå kapasitetsproblemer, noe som kan bli merkbart i Europa som en gradvis utrulling over flere dager.

I løpet av de neste tre månedene vil GPT-5.1 forbli tilgjengelig som en eldre modell i ChatGPT før den endelige pensjoneringen, slik at organisasjoner som er avhengige av etablerte arbeidsflyter kan planlegg overgangen uten brå avbrudd. Denne midlertidige sameksistensen muliggjør parallell testing av GPT-5.2 og justering av ledetekster, interne kontroller og valideringsprosesser.

I API-et opprettholder nomenklaturen den vanlige korrespondansen: Instant-varianten vises som gpt-5.2-chat-nyesteTenkeversjonen er identifisert som gpt-5.2 og Pro som gpt-5.2-proUtviklere kan modulere nivået av resonnement i Pro-alternativet, med et nytt xhigh-nivå designet for prosjekter der kvaliteten på den logiske kjeden er viktigere enn ventetid eller kostnad.

Prissetting, GPT-5.2-effektivitet og fokus på bedriftskunder

Økonomisk sett kommer GPT-5.2 med høyere gebyrer per million tokens OpenAIs GPT-5.1 setter basisprisen til rundt 1,75 dollar per million input-tokens og 14 dollar per million output-tokens, med 90 % rabatter for hurtigbufrede input-tokens. Pro-varianten øker kostnaden ytterligere, med tall som klatrer til flere hundre dollar per million output-tokens i de mest krevende konfigurasjonene.

Selskapet hevder at modellens større effektivitet gir en reduksjon i den effektive kostnaden per oppgave, spesielt i scenarier der GPT-5.2 tar kortere tid å komme frem til et gyldig svar, krever færre nye forsøk og gjør færre feil. færre feil som krever at arbeidet gjøres på nyttLikevel er prisstrukturen tydelig utformet for bedrifts- og intensiv utviklingsbruk, snarere enn for engangseksperimenter.

Hos ChatGPT beholder Plus- og høyere abonnementer sine vanlige priser, noe som flytter en betydelig del av den ekstra kostnaden til API-bruk. For mange europeiske selskaper som allerede integrerer ChatGPT i intranett, produktivitetsverktøy eller interne assistenter, kan dette bety omkalibrere budsjetter og avgjøre hvilke prosesser som fortjener å migrere til GPT-5.2, og hvilke som kan fortsette å fungere med tidligere, mer økonomiske modeller.

Infrastruktur, sikkerhet og regulatorisk press

Implementeringen av GPT-5.2 er, som i tidligere generasjoner, avhengig av infrastrukturen til Microsoft Azure og NVIDIA GPU-er (inkludert H100-, H200- og GB200-NVL72-familiene). OpenAI har forpliktet seg til investeringer på flere millioner dollar i datakraft for å støtte disse frontmodellene, en sjanse som medfører økonomisk risiko og krever at selskapet stadig søker nye inntektsstrømmer. Det utforsker også åpne vektingsmodeller som GPT OSS.

Parallelt innfører firmaet ytterligere tiltak angående sikkerhet og beskyttelse av mindreårigeEt av de mest slående stegene er utrullingen av et system som er i stand til å estimere brukernes alder, med mål om å tilpasse ChatGPTs svar til de under 18 år og bane vei for en fremtidig «voksenmodus» med forbedrede kontroller. Denne typen mekanismer er i samsvar med de regulatoriske kravene som blir stadig mer etablert i både EU og USA.

OpenAI erkjenner at systemene deres noen ganger kan være overdrevent negative, noe som betyr at de avviser forespørsler som ikke nødvendigvis bryter med retningslinjene, og sier at de jobber med å bedre balanse mellom sikkerhet og nytteverdiSelskapet insisterer også på at eventuelle relevante endringer i tilgjengeligheten av tidligere versjoner – som GPT-5.1, GPT-5 eller GPT-4.1 i API-et – vil bli annonsert i god tid, et tegn på kontinuitet for kunder som fortsatt er avhengige av disse modellene.

GPT-5.2 presenteres som en syklusoppdatering som forsøker å kombinere forbedret resonnement, hastighet og stabilitet med en strategi som er mer fokusert på profesjonell og bedriftsmessig bruk. Hvis forbedringene innen koding, vitenskap, dokumentanalyse og håndtering av omfattende kontekster konsolideres i daglig praksis, kan modellen bli et relevant verktøy for europeiske organisasjoner som søker automatisere deler av prosessene sine uten å gi avkall på streng menneskelig kontrollDet gjenstår å se i hvilken grad disse løftene vil føre til reelle endringer i produktivitet og i måten vi jobber med kunstig intelligens på i de kommende månedene.

DeepSeek-V3.2
Relatert artikkel:
DeepSeek-V3.2: den kinesiske modellen som ønsker å konkurrere med GPT-5 og Gemini-3 Pro