DeepSeek introduserer Fire-Flyer-filsystem: Et AI-optimalisert parallelt filsystem basert på Linux

  • DeepSeek har lansert Fire-Flyer File System (3FS), et høyytelses filsystem for kunstig intelligens.
  • 3FS optimerer datatilgang i AI-modellopplæring og slutningsprosesser, og utnytter SSD- og RDMA-nettverk.
  • Systemet har blitt publisert som åpen kildekode under MIT-lisensen, slik at det kan brukes og modifiseres av fellesskapet.
  • Med en leseytelse på 6.6 TiB/s overgår den langt andre distribuerte lagringsløsninger.

Fire-Flyer filsystem av DeekSeek

DeepSeek, det kinesiske selskapet som spesialiserer seg på kunstig intelligens, har tatt et ytterligere skritt i utviklingen av teknologiske verktøy for å optimere behandlingen av data i store volumer. Hans nye forslag er Fire-Flyer filsystem (3FS), et parallelt filsystem designet for å forbedre effektiviteten i AI-modelltrening og slutningsoppgaver.

Datalagring og tilgang er avgjørende aspekter i miljøer med kunstig intelligens, spesielt når du håndterer store datasett og krever rask informasjonsoverføring. Tradisjonelle systemer oppfyller ikke alltid gjeldende krav, og i denne sammenheng, DeepSeek har utviklet 3FS som en skalerbar og høyytelsesløsning.

Nøkkelfunksjoner i Fire-Flyer-filsystemet

3FS er et Linux-basert distribuert filsystem optimalisert for bruk i høyytelses databehandling (HPC) og kunstig intelligens-miljøer. Designet muliggjør effektiv lagringsadministrasjon, minimerer ventetiden og forbedrer datatilgangen.

  • Optimalisering for moderne maskinvare: 3FS drar full nytte av ytelsen til SSD-er og RDMA-nettverk, og muliggjør lesehastigheter på opptil 6.6 TiB/s i 180-nodes klyngekonfigurasjoner.
  • Parallell arkitektur: Den distribuerte designen letter systemutvidelsen uten at det går på bekostning av stabilitet eller tilgangshastighet.
  • Basert på FUSE: Dette lar systemet kjøre i brukerrom uten å måtte endre Linux-kjernen, noe som letter implementeringen og kompatibiliteten med ulike distribusjoner.
  • Fokuser på lesehastighet: Prioritering av tilfeldig lesing over caching, noe som er avgjørende i AI-modeller som krever umiddelbar tilgang til store datamengder.

Et system testet i virkelige miljøer

DeepSeek har brukt 3FS på sine egne servere siden 2019, slik at den kan forbedre ytelsen i virkelige situasjoner. I de siste testene oppnådde systemet 3.66 TiB/min i datasorteringsbenchmarks og over 40 GiB/s per node for KVCache-oppslagsoppgaver.

Videre har dette systemet blitt brukt i selskapets Fire-Flyer 2-klynge, hvor det har oppnådd ytelse som ligner på high-end-servere som NVIDIA DGX-A100, men til en betydelig lavere kostnad. I følge dataene presentert av selskapet, oppnådde de 80 % av ytelsen til en DGX-A100 med 50 % av kostnadene og 60 % av energiforbruket.

Et løft til åpen kildekode-økosystemet

Et av de mest slående aspektene ved denne utgivelsen er at DeepSeek har bestemt seg for å gi ut 3FS-koden under MIT-lisens, som lar utviklerfellesskapet få tilgang til, modifisere og tilpasse systemet til sine egne behov. Denne åpenhetsstrategien er en del av selskapets Open Source Week-initiativ, hvor de har gitt ut andre AI-relaterte prosjekter.

Fire-Flyer-filsystemkoden er tilgjengelig på GitHub, noe som gjør det enklere for forskere og bedrifter å ta dem i bruk, og ønsker å optimere arbeidsflytene deres innen kunstig intelligens og høyytelses databehandling.

Fremveksten av 3FS på det distribuerte filsystemlandskapet gir et alternativ til eksisterende løsninger som Ceph, som i benchmark-tester oppnådde kun 1.1 TiB/s lesegjennomstrømning på mindre konfigurasjoner.

Med denne lanseringen demonstrerer DeepSeek sitt engasjement for teknologisk innovasjon brukt på kunstig intelligens. Ved å tilby et effektivt og rimelig lagringssystem, styrker selskapet sin posisjon i sektoren og gir nøkkelverktøy for utvikling av ny maskinlæring og avanserte datamodeller.