A ferramenta de inteligência artificial DeepSeek tem causando agitação (e ansiedade, medo e excitação) no mercado de tecnologia ao apresentar um grande modelo de linguagem (LLM) com desempenho comparável aos líderes do setor.
O diferencial está no custo de desenvolvimento divulgado: enquanto empresas americanas investem centenas de milhões de dólares em seus modelos, a DeepSeek alega ter criado seu mais recente LLM, o R1, por menos de US$6 milhões.
O impacto foi tão significativo que, em 27 de janeiro, as ações de empresas de tecnologia nos EUA despencaram, denunciando como potenciais mudanças estão chegando a esse mercado.
O Núcleo preparou esse geralzão para você entender o que está por trás do frenesi.
1 - O que é DeepSeek?
DeepSeek é uma ferramenta de inteligência artificial, de uma empresa chinesa homônima, muito similar ao que faz o ChatGPT e outros apps semelhantes, como Claude, Perplexity, CoPilot entre outros.
A interface da DeepSeek, inclusive, é vergonhosamente similar à do ChatGPT.
2- Por que a DeepSeek está causando nos EUA?
Há muitas nuances nessa resposta, mas é possível dizer que a DeepSeek alega ter conseguido construir um grande modelo de linguagem (LLM) de alta performance, chamado R1, a um valor muito inferior a de seus concorrentes nos EUA.
Para muitos, isso representa um potencial de disrupção da dominância norte-americana nesse setor e pontua um considerável avanço tecnológico da China, apesar de limitações à importação de chips de processamento impostas pelo governo dos EUA, além de reduzir a barreira de entrada de novos entrantes nesse mercado.
Além de tudo, o R1 é de código aberto – ou seja, pode ser usado por qualquer um em sua totalidade, sem pagar nada para DeepSeek.
Pra você ver: há motivos concorrenciais, geopolíticos e comerciais envolvidos.
3 - Quão mais barato é o modelo DeepSeek R1?
Até agora, a estimativa é de que a criação de um grande modelo de linguagem de ponta (como o1, da OpenAI; Claude 3.5 Sonnet, da Anthropic; ou Llama 3, da Meta) custe dezenas de milhões de dólares, muitas vezes ultrapassando a marca de US$100 milhões.
A DeepSeek alega ter desenvolvido seu mais recente modelo de raciocínio, o R1, com um investimento de US$5,57 milhões.
4 - Como assim mais de US$100 milhões?
No desenvolvimento de modelos de IA são considerados coisas como custo de processamento, infraestrutura de nuvem (tipo memória e armazenamento), consumo de energia e salários de engenheiros, cientistas da computação e pesquisadores.
No entanto, há uma compreensão geral do setor de que um dos maiores custos é com GPUs, chips especiais de processamento amplamente utilizados no setor de IA por conta de sua eficiência. Um único chip top de linha H100 da Nvidia, por exemplo, pode custar até US$40.000 (R$235.000).
A Meta, por exemplo, planeja investir na ordem de US$60 bilhões para comprar centenas de milhares de H100s, construir um mega datacenter e treinar seus modelos de IA. Já a Microsoft planeja investir coisa de US$80 bilhões, enquanto a Star Gate, iniciativa liderada pela OpenAI, que planeja gastar US$500 bilhões em quatro anos para construir esse tipo de infraestrutura.
Na segunda-feira (27.jan), por causa da DeepSeek, as ações da NVIDIA na Nasdaq perderam US$600 bilhões em valor de mercado, a maior queda nominal em um dia na história da bolsa de valores dos EUA.
5 - Como a DeepSeek conseguiu isso?
Se acreditarmos no valor declarado pela DeepSeek (algumas pessoas questionam), a empresa conseguiu isso utilizando chips H800 da Nvidia, que, embora excelentes, são mais antigos e menos potentes. Seu preço nos EUA é na faixa de US$20.000, metade da H100, mas na China pode custar mais até US$70.000, por conta especialmente do bloqueio que o governo dos EUA aplica a exportações de chips para o país.
Economize tempo e esforço no seu dia a dia. Saiba tudo com as newsletters do Núcleo.
6 - Dá pra confiar no valor anunciado pela DeepSeek?
Não dá pra confiar em nenhum valor, nem nos de outras empresas. Cada um é responsável por anunciar o valor que quiser e não há muita informação pública para corroborar.
Em seu white paper explicando seu método, a DeepSeek considerou apenas horas de processamento de GPUs, não incluindo outros critérios de custo.
A própria empresa admite isso: “Observe que os custos mencionados incluem apenas o treinamento oficial do DeepSeek-V3, excluindo os custos associados a pesquisas anteriores e experimentos de ablação em arquiteturas, algoritmos ou dados”, diz o white paper.
7 - DeepSeek é melhor do que ChatGPT?
Depende. Ainda é precisa ter testes mais amplos, mas o site Artificial Analysis ainda coloca o modelo o1 da Open AI como melhor em qualidade (e com preço muito maior).
O Mashable apontou que há estimativas de que o ChatGPT seja melhor em resultados conversacionais, criativos e relacionados a eventos do mundo real, ao passo que a DeepSeek aparenta ser melhor em coisas mais técnicas, como programação, lógica e matemática.
A janela de contexto do R1 (ou seja, o quanto de informação pode ser processada de uma vez) é bem menor do que no ChatGPT e em chatbots como Gemini, do Google.
Vale notar que o modelo R1 da DeepSeek, seu mais moderno, ainda pode alucinar tal como qualquer outra IA.
Por outro lado, a DeepSeek por enquanto é completamente gratuito, ao passo que a OpenAI custa mais de R$100 por mês pela versão premium. Isso é o suficiente para ser considerado “melhor” por muitas pessoas.
8 - Percepções do Sérgio
A DeepSeek não é uma ferramenta excepcionalmente diferente de outras ferramentas de ponta no mercado de IA generativa. Mas é isso que a torna especial: ela conseguiu chegar no topo e competir com as empresas líderes do mercado em qualidade.
No Núcleo, já cancelamos nossa assinatura mensal de ChatGPT Plus para migrar para essa ferramenta (se for o caso voltamos depois). Não porque a DeepSeek é melhor, mas porque é gratuita e com qualidade similar. No entanto, eu, pessoalmente, continuo com minha assinatura do chatbot Claude, que ainda é o melhor para mim como aplicativo.
Importante notar que foi detectada recentemente uma importante exposição de dados de usuários da DeepSeek, com históricos de chat de usuários, chaves de autenticação de API, logs do sistema e outras informações sensíveis, de acordo com uma empresa de segurança. Então, tome cuidado para não colocar informações sensíveis como senhas e coisas muito pessoais (como em qualquer outra ferramenta).
Uma coisa legal que a DeepSeek faz é mostrar o fluxo de “pensamento” da inteligência artificial, algo que eu nunca vi nenhuma outra ferramenta fazer. Isso significa que podemos ver como essa IA está funcionando em baixo do capô, o que é fascinante.
A disputa pela liderança desse mercado, tanto tecnologicamente quanto comercialmente, ainda vai muito longe, e não dá pra dizer que uma empresa chinesa vai ganhar. Mas que está assustando os americanos e seus investimentos bilionários, não tenho dúvida.
Texto atualizado em 30.jan.2025 com algumas melhorias de texto e informações sobre o custo da GPU usada pela DeepSeek. Nenhuma informação foi corrigida ou retirada.