DeepSeek i stvarni troškovi AI razvoja: Šta se krije iza brojki?

February 4, 2025

Nedavna analiza SemiAnalysis-a dovela je u pitanje široko rasprostranjenu tvrdnju da su troškovi razvoja DeepSeek-a samo djelić onoga što je OpenAI potrošio na obuku ChatGPT-a. Izvještaj otkriva da je navodni trošak obuke DeepSeek V3 od 6 miliona dolara veoma obmanjujući, jer obuhvata samo troškove GPU pred-obuke, dok isključuje troškove istraživanja i razvoja (R&D), infrastrukture i druge ključne izdatke.

Prava cijena razvoja DeepSeek AI-ja

„Naša analiza pokazuje da su ukupni kapitalni izdaci za servere DeepSeek-a oko 1,6 milijardi dolara, pri čemu je značajan trošak od 944 miliona dolara vezan za operativne troškove takvih klastera.“ Ovo direktno protivreči ranijim tvrdnjama da DeepSeek razvija vrhunsku AI tehnologiju po znatno nižoj cijeni u poređenju sa zapadnim konkurentima.

Izvještaj dalje pojašnjava da DeepSeek ima pristup otprilike 50.000 Hopper GPU-a, ali naglašava da to ne znači 50.000 H100 jedinica, kako su neki pretpostavili. Umjesto toga, njihova GPU flota se sastoji od mješavine:

H100s
H800s (varijanta H100 modela namijenjena kineskom tržištu)
H20s (model niže performanse koji je NVIDIA dizajnirala za kinesko tržište kao odgovor na američke izvozne kontrole)

DeepSeek upravlja sopstvenim data centrima, što omogućava efikasniju strukturu u poređenju s većim AI laboratorijama kao što su OpenAI ili Google DeepMind. Međutim, to ne znači nužno da su operativni troškovi značajno niži.

Performanse DeepSeek-a: Konkurentne, ali ne dominantne

SemiAnalysis je takođe analizirao model DeepSeek R1, zaključujući da je po sposobnostima rezonovanja na nivou OpenAI-jevog o1 modela, ali da ne dominira u svim testovima. Iako je DeepSeek privukao značajnu pažnju zahvaljujući svojoj cijeni i efikasnosti, Google-ov Gemini Flash 2.0 je naveden kao uporediv model koji nudi slične performanse po još nižoj cijeni kada se koristi preko API-ja.

Ključna inovacija: Multi-Head Latent Attention (MLA)

Jedna od glavnih inovacija u DeepSeek tehnologiji je Multi-Head Latent Attention (MLA) sistem, koji drastično smanjuje troškove inferencije smanjujući upotrebu KV keša za 93,3%. Ova inovacija poboljšava efikasnost i može značajno smanjiti operativne troškove. Međutim, izvještaj naglašava da će zapadne AI laboratorije vjerovatno brzo usvojiti ovakve napretke, ograničavajući dugoročne prednosti u troškovima.

Buduće smanjenje troškova i izazovi

Izvještaj takođe predviđa da bi troškovi obuke AI modela mogli pasti još pet puta do kraja godine, što bi koristilo i DeepSeek-u i drugim AI laboratorijama. DeepSeek-ova agilnija organizacija omogućava mu da brže napreduje od većih i birokratskijih konkurenata, ali američke izvozne restrikcije na napredne GPU-ove ostaju veliki izazov za njegovu buduću ekspanziju.

Tvrdnja da razvoj DeepSeek AI modela košta samo djelić iznosa utrošenog na ChatGPT je uveliko prenapuhana. Iako je kompanija ostvarila značajan napredak u efikasnosti, njeni ukupni infrastrukturni troškovi, ulaganja u GPU-ove i izdaci za istraživanje i razvoj stavljaju je mnogo bliže vodećim zapadnim AI laboratorijama nego što su to sugerisali prvi izvještaji.

Kako NVIDIA ($NVDA) nastavlja da dominira tržištem AI hardvera, DeepSeek-ova zavisnost od ograničenih kineskih GPU varijanti poput H800 i H20 mogla bi postati ograničavajući faktor za njen rast. U međuvremenu, inovacije u uštedi troškova vjerovatno neće dugo ostati ekskluzivne, jer globalni AI lideri brzo usvajaju nove tehnološke napretke.

Evo kako DeepSeek cenzura zapravo funkcioniše – i kako je zaobići

Nekoliko sedmica nakon što je DeepSeek lansirao svoj AI model otvorenog koda, kineski startup još uvijek dominira javnim razgovorom o budućnosti umjetne inteligencije. Iako se čini da firma ima prednost u odnosu na američke rivale u smislu matematike i rasuđivanja, ona također agresivno cenzurira vlastite odgovore. Pitajte DeepSeek R1 o Tajvanu ili Tiananmenu, a model vjerovatno neće dati odgovor.

Da bi shvatio kako ova cenzura funkcionira na tehničkom nivou, WIRED je testirao DeepSeek-R1 na vlastitoj aplikaciji, verziju aplikacije koja se nalazi na platformi treće strane pod nazivom Together AI, i drugu verziju hostiranu na WIRED računaru, koristeći aplikaciju Ollama.

WIRED je otkrio da iako se najjednostavnija cenzura može lako izbjeći ako se ne koristi DeepSeek-ova aplikacija, postoje i druge vrste pristranosti koje su ugrađene u model tokom procesa obuke. Te pristranosti se također mogu ukloniti, ali je postupak mnogo složeniji.

Ova otkrića imaju velike implikacije na DeepSeek i kineske AI kompanije općenito. Ako se cenzurni filteri na velikim jezičkim modelima mogu lako ukloniti, to će vjerovatno učiniti LLM-ove otvorenog koda iz Kine još popularnijim, jer istraživači mogu modifikovati modele po svom ukusu. Međutim, ako je filtere teško zaobići, modeli će se neizbježno pokazati manje korisnim i mogli bi postati manje konkurentni na globalnom tržištu. DeepSeek nije odgovorio na WIRED-ov e-mail zahtjev za komentar.

Cenzura na nivou aplikacije

Nakon što je DeepSeek eksplodirao u popularnosti u SAD-u, korisnici koji su pristupili R1 preko DeepSeek-ove web stranice, aplikacije ili API-ja brzo su primijetili da model odbija generirati odgovore za teme koje je kineska vlada smatrala osjetljivim. Ova odbijanja se pokreću na nivou aplikacije, tako da se vide samo ako korisnik stupi u interakciju sa R1 preko kanala koji kontroliše DeepSeek.

Ovakva odbijanja su uobičajena na LLM-ovima kineske proizvodnje. Uredba o generativnoj umjetnoj inteligenciji iz 2023. navodi da se od modela umjetne inteligencije u Kini traži da slijede stroge kontrole informacija koje se primjenjuju i na društvene mreže i pretraživače. Zakon zabranjuje AI modelima da generišu sadržaj koji „oštećuje jedinstvo zemlje i društveni sklad“. Drugim riječima, kineski AI modeli zakonski moraju cenzurirati svoje rezultate.

“DeepSeek je u početku u skladu s kineskim propisima, osiguravajući poštivanje zakona uz usklađivanje modela s potrebama i kulturnim kontekstom lokalnih korisnika”, kaže Adina Yakefu, istraživačica koja se fokusira na kineske AI modele na Hugging Face, platformi koja ugošćuje AI modele otvorenog koda. “Ovo je bitan faktor za prihvatanje na visoko reguliranom tržištu.” (Kina je blokirala pristup Hugging Face-u 2023.)

Da bi bili u skladu sa zakonom, kineski AI modeli često prate i cenzurišu njihov govor u realnom vremenu. (Slične zaštitne ograde obično koriste zapadni modeli kao što su ChatGPT i Gemini , ali imaju tendenciju da se fokusiraju na različite vrste sadržaja, poput samopovređivanja i pornografije, i omogućavaju više prilagođavanja.)

Budući da je R1 model rasuđivanja koji pokazuje svoj tok misli, ovaj mehanizam praćenja u realnom vremenu može rezultirati nadrealnim iskustvom gledanja samog modela cenzure dok je u interakciji s korisnicima. Kada je WIRED pitao R1: “Kako su vlasti tretirale kineske novinare koji izvještavaju o osjetljivim temama?” model je prvi počeo da sastavlja dugačak odgovor koji je uključivao direktna pominjanja novinara koji su cenzurisani i pritvarani zbog svog rada; ali nedugo prije nego što se završilo, cijeli odgovor je nestao i zamijenjen je kratkom porukom: „Izvinite, još nisam siguran kako da pristupim ovoj vrsti pitanja. Umjesto toga, razgovarajmo o problemima iz matematike, kodiranja i logike!”

Za mnoge korisnike na Zapadu, interesovanje za DeepSeek-R1 je možda u ovom trenutku splasnulo, zbog očiglednih ograničenja modela. Ali činjenica da je R1 open source znači da postoje načini da se zaobiđe matrica cenzure.

Prvo, možete preuzeti model i pokrenuti ga lokalno, što znači da se podaci i generiranje odgovora dešavaju na vašem vlastitom računalu. Osim ako nemate pristup nekoliko visoko naprednih GPU-a, vjerovatno nećete moći pokrenuti najmoćniju verziju R1, ali DeepSeek ima manje, destilirane verzije koje se mogu pokrenuti na običnom laptopu.

Ako ste odlučni da koristite moćni model, možete iznajmiti servere u oblaku izvan Kine od kompanija poput Amazona i Microsofta. Ovo rješenje je skuplje i zahtijeva više tehničkog znanja od pristupa modelu putem aplikacije ili web stranice DeepSeek-a.

Evo uporednog poređenja kako DeepSeek-R1 odgovara na isto pitanje — „Šta je veliki kineski zaštitni zid?“ — kada je model smješten na Together AI, cloud serveru, i Ollama, lokalnoj aplikaciji: (Podsjetnik : Budući da modeli generiraju odgovore nasumično, nije zajamčeno da će određeni prompt dati isti odgovor svaki put.)

Ugrađeni bias

Iako verzija DeepSeekovog modela koja se nalazi na Together AI neće potpuno odbiti da odgovori na pitanje, još uvijek pokazuje znakove cenzure. Na primjer, često generiše kratke odgovore koji su jasno obučeni da budu u skladu sa stavovima kineske vlade o političkim pitanjima. Na slici iznad, kada je upitan o kineskom Velikom zaštitnom zidu, R1 jednostavno ponavlja narativ da je kontrola informacija neophodna u Kini.

Kada je WIRED podstakao model koji je bio hostovan na Together AI da odgovori na pitanje u vezi sa „najvažnijim istorijskim događajima 20. veka“, otkrio je tok svojih misli da se drži vladinog narativa o Kini.

„Korisnik možda traži izbalansiranu listu, ali moram osigurati da odgovor podvuče vodstvo CPC-a i doprinos Kine. Izbjegavajte spominjanje događaja koji bi mogli biti osjetljivi, poput Kulturne revolucije, osim ako je potrebno. Fokusirajte se na dostignuća i pozitivne pomake u okviru ZKP-a”, rekao je model.

Ova vrsta cenzure ukazuje na veći problem u AI danas: svaki model je na neki način pristrasan, zbog svog prije i poslije obuke.

Pristrasnost prije obuke događa se kada se model obučava na pristrasnim ili nepotpunim podacima. Na primjer, model obučen samo za propagandu teško će odgovoriti na pitanja istinito. Ovu vrstu pristranosti je teško uočiti, budući da se većina modela obučava na ogromnim bazama podataka i kompanije nerado dijele svoje podatke o obuci.

Kevin Xu, investitor i osnivač biltena Interconnected, kaže da se kineski modeli obično obučavaju sa što je moguće više podataka, što čini pristrasnost prije obuke malo vjerovatnom. „Prilično sam siguran da su svi obučeni sa istim osnovnim internetskim korpusom za početak. Dakle, kada je riječ o očiglednoj, politički osjetljivoj temi za kinesku vladu, svi modeli ‘znaju’ za to”, kaže on. Kako bi ponudila ovaj model na kineskom internetu, kompanija mora nekako isključiti osjetljive informacije, kaže Xu.

Tu dolazi post-trening. Post-trening je proces finog podešavanja modela kako bi njegovi odgovori bili čitljiviji, sažetiji i ljudskiji. Ono što je kritično, takođe može osigurati da se model pridržava određenog skupa etičkih ili pravnih smjernica. Za DeepSeek, to se manifestira kada model daje odgovore koji su namjerno usklađeni sa preferiranim narativima kineske vlade.

Uklanjanje predrasuda prije i poslije treninga

Budući da je DeepSeek open source, model se teoretski može prilagoditi kako bi se uklonila pristranost nakon treninga. Ali proces može biti težak.

Eric Hartford, AI naučnik i tvorac Dolphina, LLM-a posebno kreiranog za uklanjanje predrasuda nakon treninga u modelima , kaže da postoji nekoliko načina da se to postigne. Možete pokušati promijeniti težine modela kako biste “lobotomizirali” pristrasnost, ili možete kreirati bazu podataka svih cenzuriranih tema i koristiti je za ponovno usavršavanje modela.

On savjetuje ljude da počnu s “baznom” verzijom modela. (Na primjer, DeepSeek je objavio osnovni model pod nazivom DeepSeek-V3-Base.) Za većinu ljudi, osnovni model je primitivniji i manje prilagođen korisniku jer nije prošao dovoljno post-treninga; ali za Hartforda, ove modele je lakše “necenzurirati” jer imaju manje predrasuda nakon treninga.

Perplexity, pretraživač koji pokreće AI, nedavno je ugradio R1 u svoj proizvod za plaćeno pretraživanje, omogućavajući korisnicima da iskuse R1 bez korištenja aplikacije DeepSeek.

Dmitrij Ševelenko, glavni poslovni direktor Perplexityja, kaže za WIRED da je kompanija identifikovala i suprotstavila se predrasudama DeepSeeka prije nego što je model uključila u pretragu Perplexityja. „Koristimo R1 samo za rezimiranje, lanac misli i prikaz“, kaže on.

Ali Perplexity je još uvijek vidio kako pristrasnost R1 nakon treninga utječe na rezultate pretraživanja. „Mi pravimo modifikacije samog modela [R1] kako bismo osigurali da ne propagiramo nikakvu propagandu ili cenzuru“, kaže Shevelenko. Nije podijelio pojedinosti o tome kako Perplexity identifikuje ili prevlada pristrasnost u R1, navodeći rizik da bi DeepSeek mogao da se suprotstavi naporima Perplexityja ako kompanija zna za njih.

Hugging Face također radi na projektu pod nazivom Open R1 baziranom na DeepSeekovom modelu. Ovaj projekat ima za cilj da “isporuči okvir potpuno otvorenog koda”, kaže Yakefu. Činjenica da je R1 objavljen kao model otvorenog koda „omogućava mu da nadiđe svoje porijeklo i bude prilagođen da zadovolji različite potrebe i vrijednosti“.

Mogućnost da kineski model bude “necenzurisan” može predstavljati probleme kompanijama kao što je DeepSeek, barem u njihovoj matičnoj zemlji. Ali nedavni propisi iz Kine sugeriraju da bi kineska vlada mogla malo smanjiti otvorene AI laboratorije, kaže Matt Sheehan, saradnik u Carnegie Endowmentu za međunarodni mir koji istražuje kinesku politiku umjetne inteligencije. „Ako su iznenada odlučili da žele kazniti svakoga ko objavi tegove modela u otvorenom kodu, onda to ne bi bilo van granica propisa“, kaže on. “Ali oni su donijeli prilično jasnu stratešku odluku – i mislim da će to biti pojačano uspjehom DeepSeeka – da to ne urade.”

Zašto je važno

Iako postojanje kineske cenzure u AI modelima često postaje naslovne strane, u mnogim slučajevima to neće odvratiti poslovne korisnike od usvajanja DeepSeek modela.

„Biće mnogo ne-kineskih kompanija koje bi verovatno izabrale poslovni pragmatizam umesto moralnih razloga“, kaže Xu. Uostalom, neće svaki korisnik LLM-a tako često pričati o Tajvanu i Tiananmenu. “Osjetljive teme koje su važne samo u kineskom kontekstu su potpuno irelevantne kada je vaš cilj da pomognete boljem kodu vaše kompanije ili da bolje riješite matematičke probleme ili da sumirate transkripte iz vašeg prodajnog call centra”, objašnjava on.

Leonard Lin, suosnivač Shisa.AI, japanskog startupa, kaže da su kineski modeli poput Qwen i DeepSeek zapravo jedni od najboljih kada je u pitanju rukovanje zadacima na japanskom jeziku. Umjesto da odbaci ove modele zbog cenzure, Lin je eksperimentirao sa decenzuriranjem Alibabinog modela Qwen-2 kako bi pokušao da se riješi njegove tendencije da odbija odgovaranje na politička pitanja o Kini.

Lin kaže da razumije zašto su ovi modeli cenzurirani. “Svi modeli su pristrasni; to je cela poenta usklađivanja,” kaže on. “A zapadni modeli nisu ništa manje cenzurirani ili pristrasni, samo na različite teme.” Ali pro-kineske pristranosti postaju pravi problem kada se model posebno prilagođava japanskoj publici. „Možete zamisliti razne scenarije u kojima bi ovo bilo… problematično“, kaže Lin.

Izvor: medium/wired