ChatGPT Images 1.5: Dette er OpenAIs store sprang innen bilder

  • ChatGPT Images lanserer GPT Image 1.5-modellen, opptil fire ganger raskere og med bedre instruksjonssporing.
  • Det nye verktøyet muliggjør presise redigeringer av opplastede bilder, samtidig som lyssetting, komposisjon og ansiktstrekk opprettholdes.
  • Merkbar forbedring i tekstgenerering i bilder og i komplekse scener med mange ansikter eller smÃ¥ detaljer.
  • OpenAI lanserer sin egen bildeseksjon i ChatGPT, nÃ¥ tilgjengelig for de fleste brukere via API.

ChatGPT-bilder

AI-drevet bildegenerering har blitt et av de mest synlige utstillingsvinduene i kappløpet mellom teknologigiganter. OpenAI har bestemt seg for å gjøre et trekk med en dyp oppdatering av ChatGPT-bilder, det integrerte visuelle skapersystemet, i en kontekst der modeller som Googles Nano Banana Pro dominerte mye av samtalen.

Med denne lanseringen ønsker selskapet bak ChatGPT at verktøyet deres skal gå utover å være et enkelt chat-tillegg og fungere som en fullverdig funksjon. et ekte integrert kreativt studio, raskere, mer nøyaktig og med et grensesnitt designet fra bunnen av for å fungere med bilder i stedet for å være begrenset til tekst.

Ny GPT Image 1.5-modell: fart og presisjon som kjennetegn

Kjernen i oppdateringen er GPT-bilde 1.5OpenAIs nye flaggskipmodell for bilder. Selskapet hevder at det kan generere visuelt innhold opptil fire ganger raskere enn den forrige versjonen, noe som i praksis er spesielt merkbart i rushtiden og på mobile enheter, hvor det før ikke var uvanlig at prosessen ble avbrutt eller tok en evighet når man byttet applikasjon.

I tillegg til ytelse ligger den viktigste forbedringen i instruksjonssporing. Systemet tolker instruksjoner mer nøyaktig. komplekse spørsmål og presise romlige forholdslik at forespørsler som å endre bare ett objekt, justere belysningen eller modifisere en persons klær ikke lenger forårsaker uventede endringer i resten av scenen.

OpenAI forklarer at GPT Image 1.5 har blitt trent til å holde viktige bildeelementer konstante, som for eksempel ansiktsidentitet, helhetlig komposisjon eller fargepalettselv etter flere runder med kjederedigering. Dette punktet er spesielt relevant for profesjonell bruk, der visuell konsistens ikke er et innfall, men et krav.

Spot- og kjederedigering: endre bare det som betyr noe

Et av områdene der tidligere modeller ikke levde opp til forventningene var målrettet redigering av spesifikke områderÅ bytte en hatt, justere belysningen eller legge til et element i bakgrunnen kan ende opp med å remikse hele scenen. De nye ChatGPT-bildene løser dette problemet direkte.

Modellen er i stand til legge til, fjerne, kombinere, blande og transponere elementer innenfor samme bilde, samtidig som alle andre viktige komponenter holdes stabile. I praksis betyr dette å kunne be om handlinger som å endre fargen på en skjorte, modifisere en hatt, justere et trafikkskilt eller gjøre om en lastebil til en brannbil uten å forvrenge resten av omgivelsene.

Atferd i telefonsamtaler har også blitt forsterket kjedeutgaverFrem til nå ville en tredje eller fjerde endring vanligvis føre til at modellen fullstendig «gjenoppfinner» bildet. Med GPT Image 1.5 bevarer verktøyet stilen, posituren og scenen mye mer pålitelig, slik at du kan iterere på samme grunnlag uten å måtte starte på nytt med hver modifikasjon.

Kreative transformasjoner: fra selfie til filmplakat

Utover sin tekniske presisjon, presser OpenAI ChatGPT Images inn i et særegent kreativt territorium. Systemet lar brukere laste opp sitt eget bilde og, med en relativt enkel melding, få tak i bildet på få sekunder. troverdige transformerte versjonerFra en 90-tallsreklame til en scene på Times Square midt på vinteren eller en japansk by med cyberpunk-estetikk.

Modellen er også i stand til å gjenskape spesifikke kunstneriske stiler, som klassiske filmplakater, illustrasjoner i anime-stil eller historisk utseende komposisjoner, som respekterer viktige trekk ved den opprinnelige personen. Tanken er at brukeren kan «se» seg selv i svært forskjellige kontekster, uten å miste følelsen av at det er den samme personen.

Denne tilnærmingen minner om hva modeller som Nano Banana allerede tilbød, men OpenAI prøver å differensiere seg ved å satse på mer kontrollerte konseptuelle transformasjonerder systemet opprettholder essensen av basisbildet samtidig som det endrer klær, miljø, belysning eller tidsepoke med betydelig visuell sammenheng.

ChatGPT Images sier farvel til den gulaktige stilen og forbedrer komplekse scener

I lang tid var det relativt enkelt å identifisere om et bilde var blitt laget med tidlige versjoner av ChatGPT: de dominerte varme toner, kremete overflater og en viss gul undertone som avslørte dens kunstige opprinnelse. Interne sammenligninger vist av OpenAI og uavhengige tester, sammenlignet med alternativer som Bing Image CreatorDen egenskapen ser ut til å ha blitt etterlatt.

Den nye modellen tilbyr en mer nøytralt og variert fargespekterDette gjør at bildene ser mer ut som konvensjonelle fotografier, med mindre brukeren eksplisitt ber om noe annet i meldingen. Dette bidrar til at bildene fremstår mindre «merkede» og mer nyttige i sammenhenger der realisme eller integrering med eksisterende fotografisk materiale er ønsket.

Det er også gjort forbedringer i representasjonen av scener med mange små elementersom for eksempel folkemengder eller bakgrunner med mye detalj. Ansiktene i store grupper er nå mer tydelige fra hverandre, med mer naturlige positurer og uttrykk, og typiske feil som håndavtrykk, små streker eller merkelige repetisjoner er redusert.

Med ChatGPT Images kan du sette inn tekst i bilder: hopp inn i plakater, infografikk og mockups

Å generere lesbar tekst i et bilde har historisk sett vært en av akilleshælene til generativ AI. OpenAI hevder at GPT Image 1.5 tar et betydelig skritt fremover på dette området, med en mye mer konsistent typografisk gjengivelse enn i tidligere versjoner.

Modellen kan håndtere tette, små tekstblokkerDette åpner døren for å lage plakater, infografikk, avissidemodeller eller design med tabeller og markdown-lignende formater med et lesbarhetsnivå som, selv om det ikke er perfekt, er nærmere noe brukbart uten intensiv retusjering.

For de som jobber innen markedsføring, utdanning, e-handel eller digitalt innhold, betyr denne forbedringen at man reduserer tiden man bruker på korrigere misformede bokstaver eller ufullstendige ordI sammenhenger der det er behov for å produsere visuelt materiale med klare budskap klart for publisering, blir det faktum at modellen i seg selv genererer rimelig ren tekst en differensierende faktor.

En ny brukeropplevelse: en dedikert bildeseksjon i ChatGPT

Oppdateringen stopper ikke ved modellen; den påvirker også hvordan den brukes. OpenAI har lagt til en ny funksjon i ChatGPT-sidefeltet. en egen seksjon kalt «Bilder»Dette gjelder både mobilappen og nettversjonen. Målet er å skille den visuelle opplevelsen fra tradisjonell chat og gjøre det enklere for de som ikke vil slite med komplekse meldinger å navigere.

Fra dette nye rommet finner brukeren forhåndsdefinerte stiler, trendforslag og maler For hyppige oppgaver som å lage hilsener, restaurere gamle bilder, bytte mellom forskjellige kunstneriske stiler eller generere varianter av samme produkt, senker denne tilnærmingen inngangsbarrieren for folk uten teknisk erfaring.

Et annet praktisk aspekt er at Bilde-delen fungerer som sentralisert arkiv av alle brukerens visuelle kreasjoner. Derfra er det enklere å se gjennom tidligere versjoner, gjenta en stil med nytt innhold eller fortsette å redigere et allerede generert bilde, noe som er spesielt nyttig i kontinuerlige arbeidsflyter.

Fra iøynefallende tilbehør til visuelt arbeidsverktøy

OpenAI erkjenner selv at bildegenerering i ChatGPT frem til nå har fungert mer som en ekstra iøynefallende i et grensesnitt designet for tekst som fungerer som et solid visuelt arbeidsmiljø. Med denne oppdateringen tar selskapet sikte på å gjøre et kvalitativt sprang: å gå fra «test»-bilder for sosiale medier til et verktøy som kan brukes i virkelige prosesser.

Forbedringen i konsistens og iterasjon har en direkte innvirkning på sektorer som design, markedsføring, e-handel eller merkevarebyggingBedrifter som trenger å tilpasse det samme kreative konseptet til flere formater, teste varianter av et produkt eller opprettholde konsistensen av logoer og bedriftselementer på tvers av hundrevis av deler, finner en klar fordel i denne typen kontroll.

Kreative plattformer som opererer i Europa, som for eksempel nettredaktører og skybaserte designverktøyDe integrerer allerede disse modellene i arbeidsflytene sine. På dette området kan OpenAIs satsing på et mer omfattende visuelt miljø være en god løsning for både små og mellomstore bedrifter som ønsker å akselerere produksjonen av grafisk materiale og interne kommunikasjonsteam i store selskaper.

Tilgjengelighet av ChatGPT-bilder for brukere, bedrifter og utviklere

OpenAI har begynt å rulle ut de nye ChatGPT-bildene for de fleste brukere av plattformen, inkludert de med gratis kontoerMange brukere ser allerede et varsel når de åpner appen som inviterer dem til å prøve bildefunksjonen, og en ny dedikert fane i sidemenyen for å sentralisere bruken.

I næringslivet har selskapet bekreftet at avansert tilgang for bedrifts- og bedriftskontoer vil bli rullet ut gradvis, med fokus på integrasjoner innen profesjonelle arbeidsflyterFor europeiske organisasjoner som allerede bruker ChatGPT til interne oppgaver, betyr dette at de kan utvide bruken fra tekst til grafisk materiale generert under de samme påloggingsinformasjonene.

Parallelt er GPT Image 1.5 tilgjengelig via OpenAI APIDette lar utviklere integrere bildegenerering og -redigeringsfunksjoner i sine egne applikasjoner. Selskapet oppgir at kostnaden for bildeinndata og -utdata er omtrent 20 % lavere enn den forrige modellen, en betydelig fordel for store prosjekter eller tjenester som opererer med knappe marginer.

Konkurranse med Nano Banana Pro og andre visuelle modeller

OpenAIs trekk kommer i en tid med intenst konkurransepress. Google har presset på Nano Banan Pro som en av de ledende visuelle generative modellene, integrert i økosystemet av kreative verktøy og knyttet til hans Tvillingene-familien, noe som har økt bruken globalt.

Denne situasjonen har ført til etableringen av [uklart] i noen konkurrerende tjenester. strenge grenser for gratisbrukereFor eksempel ved å redusere antall bilder som kan genereres per dag, delvis på grunn av høy etterspørsel. I motsetning til dette ser det ut til at OpenAI satser på en kombinasjon av bred rekkevidde, større hastighet og et mer raffinert redigeringsmiljø for å beholde og tiltrekke seg brukere.

I mellomtiden presser andre aktører som xAI med chatboten Grok eller diverse bildespesialister på for visuell generering blir en sentral front i kampen om brukeroppmerksomhet. OpenAIs strategi innebærer å konsolidere ChatGPT som en «alt-i-ett-applikasjon», der søk, tale, tekst, bilder og video sameksisterer i ett enkelt inngangspunkt.

Med disse nye ChatGPT-bildene tar OpenAI et viktig skritt mot en et mer modent visuelt verktøyEn raskere og mer nøyaktig modell, et differensiert grensesnitt og redigeringsmuligheter som er tydelig rettet mot virkelig arbeid, både i personlige og profesjonelle sammenhenger. Det gjenstår å se i hvilken grad disse forbedringene vil bli integrert i hverdagen til brukere og bedrifter i Spania og Europa, men budskapet er klart: bildet er ikke lenger bare et morsomt tillegg til chat, men har blitt en sentral del av ChatGPT-økosystemet.

ChatGPT lage bilder
Relatert artikkel:
ChatGPT genererer nå bilder med GPT-4o: alt du trenger å vite