Backfire schreef op 27 januari 2025 12:36:
Het grappige is, is dat het deepseek model al een week oud is. Maar omdat een of andere ceo er iets over heeft genoemd gaan de algo's helemaal knetter gek vandaag. Verder wordt beweerd dat het model getraind is op zo'n beetje een gaming machine terwijl ze gewoon 50.000 hopper H100s ter beschikking hebben gehad.
Daarnaast maakt deepseek gebruik de nieuwe AI technieken "test time compute" en "data distilation". Nieuwe technieken die openAI ook gebruikt voor het o1 model en die ze verder hebben toegepast bij het binnenkort te lanceren o3 model. In principe gebruik je een grote model om een kleiner model specifiek te trainen. Heel goed dat de Chinese wetenschappers dit overigens hebben kunnen doorgronden en voorts openbaar hebben gemaakt. Daar gaat toch een stukje beschermde kennis van openAI (en dus verdienmodel) verloren.
Maar worden nu ineens alle chip orders geannuleerd? Gaan die honderden miljarden capex ineens naar 0? Dacht het niet. Ai agents komen er met rasse schreden aan en zeker aan de inference kant is nog extreem veel compute nodig.