DeepSeek: Uma Mudança de Paradigma, O Que Isso Significa Para a Humanidade

Deepseek China SecurityARQUIVO - A página do aplicativo para smartphone DeepSeek é vista na tela de um smartphone em Pequim, 28 de janeiro de 2025. (AP Photo/Andy Wong, Arquivo)Copyright 2025 The Associated Press. Todos os direitos reservadosA baleia que é DeepSeek estava invisível antes de 20 de janeiro de 2025. Então, a Baleia Azul aparece aos olhos do mundo em 20 de janeiro. Esse impacto enviou ondas de choque ao redor do mundo.

O lançamento do DeepSeek-R1 imediatamente fez com que o valor de mercado de várias empresas de hardware e software despencasse, que eram sustentadas pelo que os investidores pensavam ser o excepcionalismo americano. Retirar os últimos chips e a Propriedade Intelectual de IA da China era considerado a estratégia a seguir. Exceto que estava errado. Isso é o que compõe o salto. Especialmente para potências de fabricação e design como a China. Ironicamente, os últimos modelos da DeepSeek são gratuitos para usar. Eles até rodam em seus servidores gratuitamente.

O desenvolvimento de modelos de linguagem de propósito geral através da escalabilidade de parâmetros e dados de treinamento levou a muitos avanços. O lançamento do ChatGPT-3.5 e 4.0 em 2022-23 desencadeou o potencial de propósito geral da IA para o público em geral. Esta abordagem também aumentou muito os custos, uma vez que as demandas de computação e dados impulsionaram processadores maiores e melhores. No final de 2023 e 2024, e mesmo agora, a construção de centros de dados consumidores de energia foi considerada a única maneira de melhorar o desempenho dos modelos. Limitar o acesso à computação e aos chips mais recentes foi pensado como uma forma de restringir a China como fonte desses modelos poderosos. Com o DeepSeek, esse paradigma foi alterado.

Empresas como a Nvidia, cujas ações foram fortemente afetadas pelo anúncio, desde então recuperaram e prosperaram. As lições foram ignoradas pelos mercados globais. O pior pode estar por vir, uma vez que as empresas sustentadas pela ascensão da IA e seu uso são trazidas de volta à realidade por uma combinação de novos métodos e pela diminuição da computação necessária para realizar o treinamento, bem como a inferência.

Os custos irrecuperáveis e os custos de mudança, com os seus próprios poderosos defensores económicos, impedem uma visão de longo prazo e bloqueiam a IA americana nos seus caminhos. O sucesso gera complacência e adesão ao modelo que produziu o sucesso. Na IA, um campo em rápida evolução, ficar preso a algoritmos, processos e práticas é mortal. O DeepSeek mostrou que simplesmente acumular computação e dados não gera progresso exponencial. Esta é uma lição de muitos campos, que muitas vezes é ignorada com um ditado muito utilizado, mas errado: "Desta vez é diferente." A inovação segue padrões familiares; lentamente e depois rapidamente.

MAIS PARA VOCÊ## Eficiência

Os custos de treinamento e operação do DeepSeek são muito mais baixos do que os de outros modelos. A relação em uma apresentação recente mostrou 6M$ para o DeepSeek / versus 600M$ para o Llama (, o modelo de código aberto da Meta). Um centésimo do custo. Os custos para outros modelos, incluindo o ChatGPT, são ainda maiores. As economias de custo são resultado da implementação das próprias descobertas do DeepSeek em aprendizado por reforço e treinamento usando destilação. Além disso, o modelo é muito eficiente na geração da língua chinesa. Há três meses, um grande número de empresas chinesas havia aderido à revolução da IA ao assinar o DeepSeek. Como campeão nacional, a política industrial do governo apoia o DeepSeek.

RL como um método de treinamento foi inventado na Universidade de Amherst. Os recipientes do prêmio Turing ACM 2024, Andrew Barto e Richard Sutton, foram os inventores das técnicas clássicas de aprendizado por reforço. Para LLMs e outros modelos grandes, tal abordagem se enquadra no aprendizado supervisionado. O modelo é refinado por feedback, classicamente de humanos, chamado RLHF (Reinforcement Learning with Human Feedback). Isso é chamado de ajuste fino supervisionado. Os humanos são os supervisores. O artigo lançado pelos criadores do DeepSeek R1 entra em detalhes sobre a maneira como modificaram o RL.

Qualquer coisa que envolva humanos no loop em grande escala requer muito dinheiro. Remover o humano no loop torna o treinamento mais barato. Uma versão do modelo é usada para ajustar o outro. Em outras palavras, um modelo funciona como supervisor e o outro é treinado. A chegada de novas empresas com modelos como o MiniMax-M1 epitomiza ainda mais essa mudança. Técnicas como essas vão ultrapassar modelos que são criados usando escalonamento convencional.

O DeepSeek-R1 foi eficaz através da sua evolução utilizando múltiplas estratégias. Uma combinação de métodos inovadores baseados em técnicas existentes tornou o treinamento e a inferência eficientes em termos de tempo e recursos. Mais detalhes podem ser encontrados neste artigo. Em resumo, todos os aspectos da criação e funcionamento de grandes modelos de linguagem foram alterados, melhorados ou reestruturados para eficiência de custo e tempo.

MiniMax-M1

A MiniMax-M1 afirma ter reduzido o custo do treinamento do DeepSeek-R1 em 90%. Eles treinaram o seu modelo por um custo de $500K. Em contraste, o custo do DeepSeek-R1 foi de $6M e o do LLaMa foi de $600M. Tem havido dúvidas sobre os números divulgados tanto pelo DeepSeek quanto pelo MiniMax.

As eficiências foram aprimoradas através do refinamento adicional do RL com o que é chamado de atenção relâmpago. Isso é principalmente para problemas determinísticos, como raciocínio matemático e lógico, e problemas de longo contexto, como codificação. O Minimax também está disponível através do HuggingFace, o host de IA de código aberto.

Privacidade

Há preocupações de que a DeepSeek esteja a colher dados privados para o seu próprio uso. Este fenómeno é comum no mundo da IA e das redes sociais em geral. O que torna o compartilhamento de dados privados com a DeepSeek ou outras empresas privadas problemático é o fato de que esses dados serão usados para refinar os modelos. No caso da DeepSeek ou de outras empresas baseadas na China, há um receio de que os dados cheguem ao governo chinês. As empresas de IA privadas, mesmo aquelas nos Estados Unidos, fazem o mesmo, exceto que elas compartilharão esses dados com o governo dos EUA se forem forçadas por lei. Neste momento, tal cenário é mais inquietante. A quarta emenda cairá em desuso, se o governo puder investigar não apenas as nossas pessoas e os nossos lares, mas as nossas mentes sem um mandado.

Para ler mais sobre os riscos do DeepSeek, leia esta análise da Hidden Layer. Uma vez que o modelo de negócios da Hidden Layer se baseia neste tipo de análise, é melhor olhar de perto para a análise e comparar com o seu trabalho em outros modelos abertos.

Modelos de IA de Código Aberto

Open Source International (OSI) tem uma definição de Open Source AI. Neste momento é 1.0, sujeito a revisão. Assim como a definição Open Source para software, permite que os usuários usem, observem, modifiquem e distribuam sem quaisquer restrições. Os modelos de IA dependem muito dos dados de treinamento. O uso de IA envolve inferência, consumindo recursos. A despesa com treinamento é separada da despesa de inferência. Na definição clássica de software open source, o código-fonte está disponível para qualquer usuário usar, observar, modificar e distribuir. Em uma interpretação estrita de open-source de IA, o código-fonte deve incluir os dados usados para treinar o modelo. No entanto, isso pode não ser prático, nem faz parte da definição OSI de Open Source AI.

Isto é drasticamente diferente da orientação da OSI para software de código aberto. A outra diferença é a observabilidade dos pesos do modelo e hiperparâmetros. Durante a fase de aprendizagem, os pesos do modelo são refinados. Os pesos do modelo incorporam o modelo em sua forma atual, cristalizando todo o treinamento que o modelo passou. Os hiperparâmetros controlam a configuração inicial do ambiente de aprendizagem. Num modelo aberto, os pesos do modelo e os parâmetros do modelo devem ser abertos.

Modelos de IA de Código Aberto podem ser chamados de modelos de pesos abertos. Muitos modelos da China são modelos de pesos abertos, incluindo Qwen (Da AliBababa). Esta competição também forçou a OpenAI a lançar um modelo de peso aberto. Este é o modelo base gpt-oss com duas variantes.

O Futuro

Não nos aprofundamos na tecnologia por trás da criação de prompts multimodais e geração multimodal. Por multimodal, queremos dizer não apenas texto, mas também imagens, áudio e vídeo. MiniMax, assim como DeepSeek, têm essas capacidades. É claro que limitar o acesso ao hardware e ao know-how não pode impedir a verdadeira inovação. Essas restrições também geram múltiplas mudanças de paradigma, tornando a IA mais barata de desenvolver com menos recursos de hardware e energia, criando um futuro democratizado e descentralizado onde poderíamos ajustar e rodar modelos em hardware comum. Esses desenvolvimentos nos dão esperança de que seremos capazes de controlar e moldar essas capacidades para ajudar a humanidade em vez de nos prejudicar.

H0.51%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)