Kínai szuper AI sokkolta a világot

A DeepSeek mesterséges intelligencia modelljének megjelenése komoly hullámokat kavart a tőkepiacokon, különösen az Nvidia részvényeinek árfolyamában, amely drámai esést szenvedett el, írta meg a portfolio.hu.
A kínai startup által kifejlesztett AI modell sokkal hatékonyabb, mint a nyugati versenytársak, és komoly kérdéseket vetett fel a mesterséges intelligencia-fejlesztések költségeiről. Egyes elemzők azonban túlzott pánikot látnak a DeepSeek modelljei körüli felhajtásban.
A Bernstein elemzője, Stacy Rasgon, alátámasztja, hogy bár a DeepSeek modelljei figyelemre méltóak, nem forradalmiak, és az 5 millió dolláros költség nem tükrözi a teljes fejlesztési kiadásokat.
A DeepSeek modellek költséghatékonysága és az alacsony árazásuk jelentős változásokat hozhat a mesterséges intelligencia piacán, de a Bernstein szerint a beruházások és a fejlesztések továbbra is folytatódnak.
Felbolygatta a piacot a DeepSeek
Komoly felfordulást okozott a tőkepiacokon a DeepSeek mesterséges intelligencia modelljének megjelenése.
Ezt komoly kérdéseket vetett fel azzal kapcsolatban, hogy kell-e annyit költeni az AI-ra, mint amennyit eddig költöttek a cégek, illetve mekkora hatása lehet a masszív capex tervekkel rendelkező vállalatok mesterséges intelligenciára fordított beruházásaira.
Ahogy az lenni szokott, nagy a zaj a téma körül, nagyon sok a megválaszolatlan kérdés, és a különböző vélemény. A piac úgy tűnik, hogy az Nvidia szempontjából egyértelműen a pesszimista forgatókönyv mellett tette el a voksát. Van viszont olyan elemző, aki szerint az új kínai szuper AI körüli felhajtás kicsit túlzás.
A DeepSeek tényleg 5 millió dollárból "építette fel az OpenAI-t?"
Természetesen nem - írja a Bernstein.
Valójában két modellcsaládról van szó.
Az első család a DeepSeek-V3, egy Mixture-of-Experts (MoE) nagy nyelvi modell, amely számos optimalizálás és okos technikai megoldás révén hasonló, vagy jobb teljesítményt tud nyújtani más nagy alapmodellekhez képest, de a számítási erőforrások töredékét igényli a képzéshez. A DeepSeek valójában egy 2048 darab Nvidia H800-as GPU-ból álló klasztert használt durván 2 hónapon keresztül a modell betanításához. A gyakran idézett 5 millió dolláros számot úgy számították ki, hogy 2 dollár/GPU óra díjat (2 dollárba kerül egy GPU használata óránként) feltételeztek erre az infrastruktúrára.
Ez szám viszont félrevezető, mert nem tartalmazza az összes többi, az architektúrákkal, algoritmusokkal vagy adatokkal kapcsolatos előzetes (kutatási és kísérleti) költségeket
- írja a Bernstein.
De vajon jók-e a DeepSeek modelljei?
Abszolút - írja a Bernstein.
A V3 egy Mixture-of-Experts modellt használ (egy olyan architektúrát, amely számos kisebb, együtt dolgozó modellt kombinál) 671 milliárd teljes paraméterrel és 37 milliárd aktív paraméterrel egy időben. Ez az architektúra számos más újítással párosul, mint a Multi-Head Latent Attention (MHLA, amely jelentősen csökkenti a szükséges gyorsítótár méretét és a memóriahasználatot), az FP8 számítást használó vegyes pontosságú képzés (az alacsonyabb pontosság jobb teljesítményt tesz lehetővé), az optimalizált memóriaterület, és a képzést követő fázis.
A Bernstein azt írja, hogy modell valóban jól néz ki, sőt, számos nyelvi, kódolási és matematikai benchmarkon ugyanolyan jól vagy jobban teljesít, mint más nagy modellek, miközben a képzéshez a számítási erőforrások töredékére van szükség.
Indexkép: Getty Images