O engenheiro-chefe da NVIDIA escreveu: O DeepSeek foi desenvolvido por meio da tecnologia de destilação de modelos.

Use modelos grandes existentes (como GPT-4o e o1) para destilar o modelo pequeno e, em seguida, ajuste-o com uma pequena quantidade de dados. Embora os Estados Unidos restrinjam o gigante oriental de usar as GPUs mais avançadas para treinamento, não há restrições quanto ao uso dos modelos grandes mais recentes e à realização de destilação, então o DeepSeek está à frente na multimodalidade.

Acredito que seja tarde demais para lançar modelos grandes com recursos de última geração para evitar a destilação porque "o segredo já foi revelado". O gigante oriental já está no mesmo nível do mundo em muitos campos tecnológicos. As empresas que chegam tarde devem permanecer humildes, pé no chão e trabalhar duro para evitar serem deixadas para trás ou mesmo ultrapassadas por seus rivais na competição. O grande modelo é a fundação dos Estados Unidos. Se não formar um monopólio, um empate também é uma vitória. Enquanto houver uma chance, há uma possibilidade de reviravolta.

$TRUMP

$AR

$BNB