
DeepSeek-V3.2-Exp har ankommet som en eksperimentell iterasjon som fokuserer på effektivitet i stor skala og i lange kontekster, med en klar nikk til fellesskapet: åpen kildekode, publiserte kjerner og et billigere API.
Utover støyen er nøkkelen at denne modellen, basert på V3.1-Terminus, lanserer en finmasket mekanisme for sparsom oppmerksomhet kalt DeepSeek Sparse Attention (DSA) som akselererer trening og inferens samtidig som kvaliteten opprettholdes. Selskapet har allerede lansert den i App, nett og API, og har kuttet bruksprisene med mer enn 50%, et aggressivt trekk som, ærlig talt, presser konkurrentene.
Viktige nye funksjoner i DeepSeek-V3.2-Exp
Stjerneinnovasjonen er DSA, som tillater en selektiv oppmerksomhet på relevante deler av konteksten uten å gå uttømmende gjennom hele sekvensen. Ifølge selskapet selv er kvalitetspåvirkningen svært lav, mens effektivitetsgevinst i lang kontekst er det håndgripelig.
I tilgjengelighet er modellen operativ i applikasjon, web og API fra dag én, ledsaget av et betydelig prisfall (50 %+) for å legge til rette for testing og adopsjon. For de som ønsker å sammenligne, opprettholder DeepSeek en midlertidig endepunkt fra V3.1-Terminus til 15. oktober 2025 kl. 15:59 UTC.
DeepSeek-V3.2-Exp ytelse og benchmarks: paritet med V3.1-Terminus
DeepSeek har søkt etter paritet med V3.1-Terminus på et bredt spekter av tester, nettopp for å isolere effekten av å introdusere spredt oppmerksomhet. I praksis resulterer dette i sammenlignbare målinger i resonnering, koding og bruk av agentlignende verktøy.
Ulike kilder oppgir tall som bidrar til å sette forventninger: V3.2-Exp beskrives som en modell med 685 milliarder parametere og lignende ytelse eller med små variasjoner avhengig av domenet. I resonnement uten verktøy siteres tall som 85.0 MMLU-Pro og 89.3 i TID 2025; i agentscenarier vises 40.1 i BrowseComp og 67.8 i SWE-verifisertDette er resultater som stemmer overens med den offisielle fortellingen om validere effektivitet heller enn å satse på et stort sprang i nøyaktighet.
Det finnes til og med fine sammenligninger: i kodeoppgaver, en økning til 2121 i Codeforces sammenlignet med 2046, mens det i mer humanistiske tester observeres små fall (f.eks. 19.8 sammenlignet med 21.7 i Humanity's Last Exam). Totalt sett antyder tabellen balansere: spesifikke forbedringer og små innrømmelser, med fart som hovedfokus.
DSA: Finkornet spredt oppmerksomhet, fortalt tydelig
Klassisk behandling blir dyr med brede kontekster; DSA minimerer arbeid der det bidrar lite. Ved å bruke sparsitet med finkontroll, konsentrerer modellen beregningen der den faktisk finner signalet, noe som forbedrer ventetid og redusere forbruket uten å forvrenge produksjonen.
På nivået av reell erfaring er dette merkbart i oppgaver som krever mye kontekstlange dokumentsammendrag, logganalyse, agenter som holder lange dialoger eller pipelines som blander henting og generering. Akkurat der, effektivitet Det er ikke en luksus: det er forskjellen på om noe er brukbart i stor skala eller ikke.
Tilgjengelighet, priser og sammenligninger for DeepSeek-V3.2-Exp
DeepSeek har annonsert at V3.2-Exp nå er tilgjengelig på App, nett og APII tillegg har den kuttet prisen på API-et med mer enn 50% med umiddelbar virkning, en beslutning som tar sikte på å utvide adopsjonen og oppmuntre sammenlignende tester.
For de som vil sammenligne med den forrige modellen, er V3.1-Terminus vedlikeholdt i en endepunkt midlertidig frem til 15.10.2025 15:59 (UTC). Selskapet inviterer også til innsendinger tilbakemelding gjennom en offentlig form, som forsterker en dynamikk av kontinuerlig forbedring i fellesskapet.
Status for åpen kildekode: vekter, teknisk rapport og kjerner
DeepSeek publiserer modellen i Hugging Face, sammen med en teknisk rapport som dokumenterer endringer og resultater. Det er en klar forpliktelse til åpenhet og til å fremme langsiktig anvendt forskning med lavere kostnader.
På kjernenivå finnes det to måter: TileLang for lesing og prototyping mer tilgjengelig, og CUDA for maksimal ytelse. Logit-indekskjerner (inkludert paginerte varianter) er i DeepGEMM, mens de med spredt oppmerksomhet publiseres i FlashMLADenne separasjonen gjør det enklere for forsknings- og produksjonsorienterte miljøer å finne sin plass.
Lokal utførelse av DeepSeek-V3.2-Exp og inferensdemoer
DeepSeek tilbyr et arkiv av slutning med en oppdatert demo for å komme raskt i gang og inspisere arkitekturen. Det første trinnet er å konvertere Hugging Face-vektene til formatet som forventes av demoen, definere antall eksperter og modellparallellitet.
Eksempelkommandoer for interaktiv konvertering og generering (sett EXPERTS=256 og MP til antall GPU-er): kan brukes som den er i et forberedt miljø.
cd inferens export EXPERTS=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive
For de som foretrekker det SGLang, det finnes forberedte avbildninger og en oppstartskommando. Støtten dekker NVIDIA (H200), AMD (MI350) GPU-er og visse NPU-er, med spesifikke tagger.
# H200 docker pull lmsysorg/sglang:dsv32 # MI350 docker pull lmsysorg/sglang:dsv32-rocm # NPU-er docker pull lmsysorg/sglang:dsv32-a2 docker pull lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --modell deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --sidestørrelse 64
Hvis du foretrekker det vLLM, har støtte fra dag én. Det anbefales å gjennomgå de offisielle oppskriftene for oppdaterte parametere og optimaliseringer av maskinvare.
API: Endepunkter, kompatibilitet og utløpsdatoer
API for DeepSeek følger standardkonvensjoner og er kompatibel med populære SDK-er. Som standard brukes basis-URL-en https://api.deepseek.com du sikter deg inn på V3.2-Exp, som forenkler den første integrasjonen og tilgangen til redusert sats.
For benchmarking finnes det et midlertidig endepunkt for V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015Husk utløpsdatoen og -klokkeslettet (15. oktober 2025, 15:59 UTC) for å planlegge benchmarks.
I tillegg er det kompatibilitet med økosystemet til AntropiskDu kan bruke basen https://api.deepseek.com/anthropic for Claude-stil-interaksjoner, eller varianten som er knyttet til det midlertidige endepunktet hvis du trenger å sammenligne med den forrige modellen.
Autentisering og nøkkelhåndtering
Forespørsler autentiseres av bærer i Authorization-overskriften. Generer nøkkelen din fra DeepSeek-dashbordet og lagre den sikkert, for eksempel i miljøvariabler eller filbehandlere. hemmeligheter som AWS Secrets Manager.
Panelet viser bruk og fakturering for å kontrollere forbruket av poletterSelv om prisene har falt, er det tilrådelig å bruke hastighetsbegrensning og periodisk nøkkelrotasjon på datamaskiner, i tillegg til å oppheve eventuelle kompromittert nøkkel Uten forsinkelse.
Chat-fullføringer, maler og grunnleggende forespørsler
Det sentrale endepunktet er /chat/fullføringer, som behandler flertursdialoger og opprettholder kontekst mellom samtaler, et ideelt scenario for V3.2-Exps styrker med lang kontekst. Det finnes to typiske modellmoduser: deepseek-chat y deepseek-reasoner.
En enkel forespørselstekst kan se slik ut, ved bruk av escaped JSON (her representert som " for klarhetens skyld): inkluderer en systemprompt og en brukerprompt.
{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Du er en teknisk ekspert." }, { "role": "bruker", "content": "Forklar sparsom oppmerksomhet." } ], "stream": false }
Når du vil ha svar i sanntid, aktiver strøm=sannOverskriftene må inneholde Content-Type: application/json og Authorization-tokenet: Bearer ${DEEPSEEK_API_KEY}. Hvis du jobber med eksplisitt resonnement, kan du kontrollere virkemåten med flagget. resonnement.aktivert.
Responsstruktur og SSE-strømming
Ikke-strømmingssvar inkluderer felt som id, objekt, opprettet, modell, valg og bruk. I valg finner du det genererte innholdet (rolle: "assistent"), og i bruk, detaljene om prompt_tokens, fullføringstokener og totalt antall_tokener.
I strømmemodus sender API-et Server-sendte hendelserHvert fragment ankommer som en datahendelse med en delta som du må akkumulere. Dette er det ideelle alternativet for grensesnitt interaktive eller terminaler med inkrementell utgang.
Funksjonskall og -utdata i streng JSON
Du kan definere verktøy Så modellen bestemmer når en funksjon skal kalles, for eksempel for å hente data eller utføre handlinger. Dette passer godt med agentflyter og integrasjoner. backend.
Hvis du trenger strukturert utdata, tving frem JSON-modus ved å bruke response_format. Dette er nyttig for datautvinning eller validering automatisk i rørledninger.
Python-eksempler med OpenAI-stil SDK
Med Python er inputkurven veldig jevn. Sett inn api_base som DeepSeek, definer nøkkelen og startforespørslene; du kan bytte mellom standard- og strømmemodus avhengig av brukstilfellet ditt.
import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "din_api_nøkkel_her" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content": "Du er en kodeassistent."}, {"role": "bruker", "content": "Skriv en Python-funksjon for å beregne Fibonacci-tall."} ], stream=False ) print(response.choices[0].message.content) # Streaming stream = openai.ChatCompletion.create( model="deepseek-chat", messages=[...], stream=True) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") # Funksjonskall (verktøydefinisjon) tools = [ { "type": "function", "function": { "name": "get_weather", "description": "Hent gjeldende vær", "parametere": { "type": "objekt", "egenskaper": { "plassering": {"type": "streng"} }, "påkrevd": [ "plassering" ] } } } ]
For streng JSON-utdata, angi svarformat en {"type": "json_object"}. Og hvis du skal ha lange dialoger, husk å gå innsnevre konteksten for å holde deg innenfor grensene og maksimere effektiviteten.
Integrasjon med Apidog
Apidog akselererer prototyping Tilbakekall: Importer spesifikasjoner, lagre miljøvariabler (som nøkkelen), bygg POST-er og test underveis. Responssimulatoren gjør det enkelt å teste ekstreme tilfeller uten ekstra kostnad. poletter.
Den genererer også kodebiter i forskjellige uttrykk og tilbyr en tidslinjevisning for feilsøking av autentisering eller parametere. Siden V3.2-Exp håndterer brede kontekster, er Apidog en flott måte å eksperimentere med lange ledetekster og se ytelsen.
Gode ​​vaner for å få mest mulig ut av det
Definer systemmeldinger klar og konsis som avgrenser atferd. For komplekse problemer kan resonneringsmåten hjelpe, og kombinere den med tankestruktureringsteknikker som er passende for ditt tilfelle.
Administrer kontekst med head: Selv om V3.2-Exp tolererer lang kontekst (tilfeller opptil 128K er sitert), kan overdreven historikk svekke effektiviteten. Den implementerer smart avkorting, skjult for ofte stilte spørsmål og grupper der det gir mening.
Innen sikkerhet renser den inndata for å forhindre umiddelbare injeksjoner og logger interaksjoner til revisjonJuster temperatur og top_p i henhold til målet ditt: lave verdier for determinisme, høye verdier for kreativitet.
Utfør A/B-tester mellom deepseek-chat y deepseek-reasoner for å velge optimal modus. Og husk hastighetsgrensen for å unngå overraskelser i fakturering.
Sammenligning med V3.1-Terminus
Innføringen av DSA gir forbedringer i ventetid som i noen tilfeller nærmer seg 3x hastighet uten å ofre den generelle kvalitetspariteten. Det er en evolusjon fokusert på forholdet kraft/effektivitet mer enn i nøyaktighetsregistreringer.
De små økningene i koding og de små nedgangene i humanistiske domener gjenspeiler finjusteringen av en modell som per design er eksperimentellDet tidsmessige endepunktet for V3.1 muliggjør direkte sammenligninger som viser DSA-gevinster på lang sikt.
Avansert lokal distribusjon
For personvernsensitive eller frakoblede distribusjoner, last ned pesos fra Hugging Face og bruk av de offisielle konverteringsskriptene er veien å gå. Angi antall eksperter (f.eks. 256) og juster modellens parallellitet etter dine behov. GPU.
Inferensdemoen tillater testing i interaktiv modus, og kjernene i TileLang eller CUDA vil hjelpe deg med å presse ytelsen i henhold til prioriteringer: prototypingshastighet eller maksimal gjennomstrømning i produksjon.
Ã…pne kjerner og ytelse
TileLang prioriterer lesbarhet og design for forskning, slik at du raskt kan iterere videre på nye ideer. Det er perfekt hvis du utforsker varianter av behandling. spredt eller minneoptimaliseringer.
For å presse ut hvert millisekund, kommer CUDA-kjerner inn i bildet: logit-indekser (med paginerte versjoner) er i DeepGEMM, mens de med spredt oppmerksomhet lever i FlashMLADenne segmenteringen lar hvert lag velge stable optimal uten å gjøre om arbeidet.
DeepSeek-V3.2-Exp-lisens, avtale og kontakt
Lageret og pesos Modellen er publisert under MIT-lisensen. Dette åpner døren for kommersiell bruk med stor fleksibilitet, og oppmuntrer til adopsjon og innovasjon i økosystemet.
For å referere til V3.2-Exp i jobber, tilbyr DeepSeek en avtaleoppføring av typen @misc med tittelen «DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention» og forfatterskap «DeepSeek-AI» (år 2025). Ved spørsmål eller hendelser, kontakt e-postadressen er service@deepseek.com.
Offisielle ressurser og nyttige lenker om DeepSeek-V3.2-Exp
Hvis du vil laste ned modellen, har du den i Klemme ansiktetHvitboken er på GitHub, sammen med implementeringsdetaljer og vurderinger.
For sammenligningstester mellom V3.2-Exp og V3.1-Terminus, se Offisiell guideOg hvis du vil sende forslag, har du en kanal med tilbakemelding offentlig på https://feedback.deepseek.com/dsa.
Med V3.2-Exp prioriterer DeepSeek en enkel idé: effektivitet uten å ofre kvalitetDSA baner vei for modeller som støtter massive kontekster til en rimelig kostnad, det strømlinjeformede API-et bringer disse mulighetene til flere team, og åpenheten i stakken (vekter, kjerner og dokumentasjon) gjør det enklere for fellesskapet å undersøke, sammenligne og bygge ekte produkter uten friksjon.