DeepSeek: A disruptiva que revoluciona o panorama da IA

GRUPO AIPU WATON

Introdución

Ansiedade continua entre grandes modelos competidores, provedores de nube que compiten por cota de mercado e fabricantes de chips traballadores: o efecto DeepSeek persiste.

Co remate da Festa da Primavera, a emoción que rodea a DeepSeek segue sendo forte. As recentes vacacións puxeron de manifesto unha importante sensación de competencia dentro da industria tecnolóxica, con moitos debatendo e analizando este "bagre". Silicon Valley está a experimentar unha sensación de crise sen precedentes: os defensores do código aberto están a expresar as súas opinións de novo, e mesmo OpenAI está a reavaliar se a súa estratexia de código pechado foi a mellor opción. O novo paradigma de custos computacionais máis baixos desencadeou unha reacción en cadea entre xigantes de chips como Nvidia, o que levou a perdas récord de valor de mercado nun só día na historia do mercado de valores dos Estados Unidos, mentres que as axencias gobernamentais están a investigar o cumprimento dos chips utilizados por DeepSeek. En medio de críticas dispares sobre DeepSeek no estranxeiro, a nivel nacional, está a experimentar un crecemento extraordinario. Despois do lanzamento do modelo R1, a aplicación asociada experimentou un aumento no tráfico, o que indica que o crecemento nos sectores de aplicacións impulsará o ecosistema xeral da IA. O aspecto positivo é que DeepSeek ampliará as posibilidades das aplicacións, o que suxire que depender de ChatGPT non será tan caro no futuro. Este cambio reflectiuse nas actividades recentes de OpenAI, incluíndo a subministración dun modelo de razoamento chamado o3-mini aos usuarios gratuítos en resposta a DeepSeek R1, así como actualizacións posteriores que fixeron pública a cadea de pensamento de o3-mini. Moitos usuarios estranxeiros expresaron a súa gratitude a DeepSeek por estes desenvolvementos, aínda que esta cadea de pensamento serve como resumo.

De xeito optimista, é evidente que DeepSeek está a unificar os actores nacionais. Co seu enfoque na redución dos custos de formación, varios fabricantes de chips upstream, provedores intermedios de nube e numerosas empresas emerxentes están a unirse activamente ao ecosistema, mellorando a eficiencia de custos para o uso do modelo DeepSeek. Segundo os artigos de DeepSeek, a formación completa do modelo V3 require só 2,788 millóns de horas de GPU H800, e o proceso de formación é moi estable. A arquitectura MoE (Mixture of Experts) é crucial para reducir os custos previos á formación nun factor de dez en comparación con Llama 3 con 405 mil millóns de parámetros. Actualmente, V3 é o primeiro modelo recoñecido publicamente que demostra unha dispersión tan alta en MoE. Ademais, a MLA (Multi Layer Attention) funciona de forma sinerxética, especialmente nos aspectos do razoamento. "Canto máis disperso sexa o MoE, maior será o tamaño do lote necesario durante o razoamento para utilizar plenamente a potencia computacional, sendo o tamaño do KVCache o factor limitante clave; a MLA reduce significativamente o tamaño do KVCache", sinalou un investigador de Chuanjing Technology nunha análise para AI Technology Review. En xeral, o éxito de DeepSeek reside na combinación de varias tecnoloxías, non só dunha. Persoas expertas no sector eloxian as capacidades de enxeñaría do equipo de DeepSeek, destacando a súa excelencia no adestramento paralelo e na optimización de operadores, conseguindo resultados innovadores ao refinar cada detalle. O enfoque de código aberto de DeepSeek impulsa aínda máis o desenvolvemento xeral de grandes modelos, e prevese que se modelos similares se expanden a imaxes, vídeos e moito máis, isto estimulará significativamente a demanda en todo o sector.

Oportunidades para servizos de razoamento de terceiros

Os datos indican que, desde o seu lanzamento, DeepSeek acumulou 22,15 millóns de usuarios activos diarios (DAU) en só 21 días, acadando o 41,6 % da base de usuarios de ChatGPT e superando os 16,95 millóns de usuarios activos diarios de Doubao, converténdose así na aplicación de máis rápido crecemento a nivel mundial, encabezando a Apple App Store en 157 países/rexións. Non obstante, mentres os usuarios acudían en masa, os piratas informáticos atacaron implacablemente a aplicación DeepSeek, causando unha presión significativa nos seus servidores. Os analistas do sector cren que isto se debe en parte a que DeepSeek desprega tarxetas para o adestramento mentres carece de suficiente potencia computacional para o razoamento. Un experto do sector informou a AI Technology Review: «Os frecuentes problemas do servidor pódense resolver facilmente cobrando taxas ou financiando para mercar máis máquinas; en última instancia, depende das decisións de DeepSeek». Isto supón unha compensación entre centrarse na tecnoloxía e a produtividade. DeepSeek confiou en gran medida na cuantificación cuántica para o seu autosustento, xa que recibiu pouco financiamento externo, o que resultou nunha presión de fluxo de caixa relativamente baixa e nun ambiente tecnolóxico máis puro. Actualmente, á luz dos problemas mencionados anteriormente, algúns usuarios están a instar a DeepSeek nas redes sociais a elevar os limiares de uso ou a introducir funcións de pago para mellorar a comodidade do usuario. Ademais, os desenvolvedores comezaron a utilizar a API oficial ou API de terceiros para a optimización. Non obstante, a plataforma aberta de DeepSeek anunciou recentemente: "Os recursos actuais do servidor son escasos e as recargas do servizo da API foron suspendidas".

 

Sen dúbida, isto abre máis oportunidades para provedores externos no sector da infraestrutura de IA. Recentemente, numerosos xigantes nacionais e internacionais da nube lanzaron as API de modelos de DeepSeek; os xigantes estranxeiros Microsoft e Amazon estiveron entre os primeiros en unirse a finais de xaneiro. O líder nacional, Huawei Cloud, deu o primeiro paso, lanzando os servizos de razoamento DeepSeek R1 e V3 en colaboración con Flow, baseado en Silicon, o 1 de febreiro. Os informes de AI Technology Review indican que os servizos de Flow, baseado en Silicon, experimentaron unha afluencia de usuarios, o que provocou que a plataforma se estrelase. As tres grandes empresas tecnolóxicas (BAT (Baidu, Alibaba, Tencent) e ByteDance) tamén emitiron ofertas de baixo custo e por tempo limitado a partir do 3 de febreiro, que lembran as guerras de prezos dos provedores da nube do ano pasado desencadeadas polo lanzamento do modelo V2 de DeepSeek, onde DeepSeek comezou a ser alcumada a "carniceira de prezos". As accións frenéticas dos provedores de nube fan eco dos fortes lazos anteriores entre Microsoft Azure e OpenAI, onde en 2019, Microsoft realizou un investimento substancial de mil millóns de dólares en OpenAI e obtivo beneficios despois do lanzamento de ChatGPT en 2023. Non obstante, esta estreita relación comezou a desgastarse despois de que Meta abertou Llama, o que permitiu a outros provedores fóra do ecosistema de Microsoft Azure competir cos seus grandes modelos. Neste caso, DeepSeek non só superou ChatGPT en termos de popularidade do produto, senón que tamén introduciu modelos de código aberto despois do lanzamento de o1, de xeito similar á emoción que rodea o renacemento de GPT-3 por parte de Llama.

 

En realidade, os provedores de nube tamén se están posicionando como portas de enlace para aplicacións de IA, o que significa que o fortalecemento dos lazos cos desenvolvedores tradúcese en vantaxes preventivas. Os informes indican que Baidu Smart Cloud tiña máis de 15 000 clientes que utilizaban o modelo DeepSeek a través da plataforma Qianfan o día do lanzamento do modelo. Ademais, varias empresas máis pequenas ofrecen solucións, como Silicon-based Flow, Luchen Technology, Chuanjing Technology e varios provedores de infraestrutura de IA que lanzaron soporte para os modelos DeepSeek. AI Technology Review descubriu que as oportunidades actuais de optimización para despregamentos localizados de DeepSeek existen principalmente en dúas áreas: unha é optimizar as características de dispersión do modelo MoE utilizando unha abordaxe de razoamento mixto para despregar o modelo MoE de 671 000 millóns de parámetros localmente mentres se utiliza a inferencia híbrida de GPU/CPU. Ademais, a optimización de MLA é vital. Non obstante, os dous modelos de DeepSeek aínda enfrontan algúns desafíos na optimización do despregamento. «Debido ao tamaño do modelo e aos numerosos parámetros, a optimización é realmente complexa, especialmente para implementacións locais onde lograr un equilibrio óptimo entre rendemento e custo será un reto», afirmou un investigador de Chuanjing Technology. O obstáculo máis importante reside en superar os límites da capacidade de memoria. «Adoptamos unha abordaxe de colaboración heteroxénea para utilizar plenamente as CPU e outros recursos computacionais, colocando só as partes non compartidas da matriz MoE dispersa na CPU/DRAM para o procesamento mediante operadores de CPU de alto rendemento, mentres que as porcións densas permanecen na GPU», explicou ademais. Os informes indican que o framework de código aberto KTransformers de Chuanjing inxecta principalmente varias estratexias e operadores na implementación orixinal de Transformers a través dun modelo, mellorando significativamente a velocidade de inferencia mediante métodos como CUDAGraph. DeepSeek creou oportunidades para estas empresas emerxentes, xa que os beneficios de crecemento se están a facer evidentes; moitas empresas informaron dun crecemento notable de clientes despois de lanzar a API de DeepSeek, recibindo consultas de clientes anteriores que buscaban optimizacións. Expertos do sector sinalaron: «No pasado, os grupos de clientes algo establecidos adoitaban estar vinculados aos servizos estandarizados de empresas máis grandes, fortemente vinculados polas súas vantaxes de custo debido á escala. Non obstante, despois de completar o despregamento de DeepSeek-R1/V3 antes do Festival da Primavera, recibimos de súpeto solicitudes de cooperación de varios clientes coñecidos, e mesmo clientes previamente inactivos iniciaron contacto para presentar os nosos servizos DeepSeek». Actualmente, parece que DeepSeek está a facer que o rendemento da inferencia de modelos sexa cada vez máis crítico e, cunha adopción máis ampla de grandes modelos, isto seguirá influíndo significativamente no desenvolvemento da industria da infraestrutura de IA. Se un modelo a nivel de DeepSeek puidese despregarse localmente a baixo custo, axudaría enormemente aos esforzos de transformación dixital do goberno e das empresas. Non obstante, os desafíos persisten, xa que algúns clientes poden ter altas expectativas con respecto ás capacidades dos grandes modelos, o que fai máis evidente que equilibrar o rendemento e o custo se volve vital no despregamento práctico. 

Para avaliar se DeepSeek é mellor que ChatGPT, é fundamental comprender as súas principais diferenzas, puntos fortes e casos de uso. Aquí tes unha comparación completa:

Característica/Aspecto Busca profunda ChatGPT
Propiedade Desenvolvido por unha empresa chinesa Desenvolvido por OpenAI
Modelo de orixe Código aberto Propietario
Custo De uso gratuíto; opcións de acceso á API máis baratas Prezos de subscrición ou de pago por uso
Personalización Altamente personalizable, o que permite aos usuarios axustalo e desenvolver a partir del Personalización limitada dispoñible
Rendemento en tarefas específicas Destaca en certas áreas como a análise de datos e a recuperación de información Versátil con bo rendemento en escritura creativa e tarefas conversacionais
Soporte lingüístico Forte atención á lingua e á cultura chinesas Ampla compatibilidade con idiomas pero centrada nos Estados Unidos
Custo da formación Custos de formación máis baixos, optimizados para a eficiencia Custos de formación máis elevados, que requiren recursos computacionais substanciais
Variación da resposta Pode ofrecer diferentes respostas, posiblemente influenciadas polo contexto xeopolítico Respostas consistentes baseadas en datos de adestramento
Público obxectivo Dirixido a desenvolvedores e investigadores que buscan flexibilidade Dirixido a usuarios xerais que buscan capacidades de conversación
Casos de uso Máis eficiente para a xeración de código e tarefas rápidas Ideal para xerar texto, responder consultas e participar en diálogos

Unha perspectiva crítica sobre a "disrupción de Nvidia"

Na actualidade, ademais de Huawei, varios fabricantes de chips nacionais como Moore Threads, Muxi, Biran Technology e Tianxu Zhixin tamén se están adaptando aos dous modelos de DeepSeek. Un fabricante de chips declarou a AI Technology Review: «A estrutura de DeepSeek demostra innovación, pero segue sendo un LLM. A nosa adaptación a DeepSeek céntrase principalmente en aplicacións de razoamento, facendo que a implementación técnica sexa bastante sinxela e rápida». Non obstante, o enfoque MoE require maiores esixencias en termos de almacenamento e distribución, xunto coa garantía da compatibilidade ao despregarse con chips nacionais, o que presenta numerosos desafíos de enxeñaría que precisan resolución durante a adaptación. «Actualmente, a potencia computacional nacional non coincide coa de Nvidia en usabilidade e estabilidade, o que require a participación orixinal da fábrica para a configuración do entorno de software, a resolución de problemas e a optimización do rendemento fundamental», dixo un profesional da industria baseándose na experiencia práctica. Simultaneamente, «Debido á gran escala de parámetros de DeepSeek R1, a potencia computacional nacional require máis nodos para a paralelización. Ademais, as especificacións de hardware nacional aínda están algo atrasadas; por exemplo, o Huawei 910B actualmente non pode admitir a inferencia FP8 introducida por DeepSeek». Un dos aspectos máis destacados do modelo DeepSeek V3 é a introdución dun marco de adestramento de precisión mixta FP8, que foi validado eficazmente nun modelo extremadamente grande, o que supón un logro significativo. Anteriormente, grandes actores como Microsoft e Nvidia suxeriron traballos relacionados, pero persisten dúbidas dentro da industria sobre a súa viabilidade. Enténdese que, en comparación con INT8, a principal vantaxe do FP8 é que a cuantización posterior ao adestramento pode lograr unha precisión case sen perdas, ao tempo que mellora significativamente a velocidade de inferencia. En comparación co FP16, o FP8 pode alcanzar unha aceleración de ata o dobre no H20 de Nvidia e máis de 1,5 veces no H100. Cabe destacar que, a medida que as discusións sobre a tendencia da potencia computacional nacional máis os modelos nacionais gañan impulso, a especulación sobre se Nvidia podería ser interrompida e se se podería eludir o foso de CUDA é cada vez máis frecuente. Un feito innegable é que DeepSeek causou unha caída substancial no valor de mercado de Nvidia, pero este cambio suscita dúbidas sobre a integridade da potencia computacional de gama alta de Nvidia. As narrativas previamente aceptadas sobre a acumulación computacional impulsada polo capital están a ser cuestionadas, pero segue sendo difícil que Nvidia sexa totalmente substituída nos escenarios de adestramento. A análise do uso profundo de CUDA por parte de DeepSeek mostra que a flexibilidade, como o uso de SM para a comunicación ou a manipulación directa de tarxetas de rede, non é viable para as GPU normais. Os puntos de vista da industria salientan que o poder de Nvidia abarca todo o ecosistema CUDA en lugar de só o propio CUDA, e as instrucións PTX (Execución de fíos paralelos) que emprega DeepSeek seguen formando parte do ecosistema CUDA. "A curto prazo, a potencia computacional de Nvidia non se pode eludir; isto é especialmente claro no adestramento; non obstante, despregar tarxetas nacionais para o razoamento será relativamente máis doado, polo que o progreso probablemente será máis rápido. A adaptación das tarxetas nacionais céntrase principalmente na inferencia; ninguén conseguiu aínda adestrar un modelo do rendemento de DeepSeek en tarxetas nacionais a escala", comentou un analista da industria a AI Technology Review. En xeral, desde o punto de vista da inferencia, as circunstancias son alentadoras para os chips nacionais de modelos grandes. As oportunidades para os fabricantes nacionais de chips no ámbito da inferencia son máis evidentes debido aos requisitos excesivamente altos do adestramento, que dificultan a entrada. Os analistas sosteñen que basta con aproveitar as tarxetas de inferencia nacionais; se é necesario, é factible adquirir unha máquina adicional, mentres que os modelos de adestramento supoñen desafíos únicos: xestionar un maior número de máquinas pode volverse oneroso e as taxas de erro máis altas poden afectar negativamente os resultados do adestramento. O adestramento tamén ten requisitos específicos de escala de clúster, mentres que as esixencias dos clústeres para a inferencia non son tan estritas, o que facilita os requisitos da GPU. Actualmente, o rendemento da única tarxeta H20 de Nvidia non supera o de Huawei ou Cambrian; a súa forza reside na agrupación en clústeres. Baseándose no impacto global no mercado da potencia computacional, o fundador de Luchen Technology, You Yang, sinalou nunha entrevista con AI Technology Review: "DeepSeek pode prexudicar temporalmente o establecemento e o alugueiro de clústeres computacionais de adestramento ultragrandes. A longo prazo, ao reducir significativamente os custos asociados ao adestramento, o razoamento e as aplicacións de modelos grandes, é probable que a demanda do mercado aumente. Polo tanto, as iteracións posteriores da IA ​​baseadas nisto impulsarán continuamente a demanda sostida no mercado da potencia computacional". Ademais, «a maior demanda de servizos de razoamento e axuste fino de DeepSeek é máis compatible co panorama computacional nacional, onde as capacidades locais son relativamente débiles, o que axuda a mitigar o desperdicio de recursos inactivos despois do establecemento do clúster; isto crea oportunidades viables para os fabricantes en diferentes niveis do ecosistema computacional nacional». Luchen Technology colaborou con Huawei Cloud para lanzar as API de razoamento da serie DeepSeek R1 e os servizos de imaxes na nube baseados na potencia computacional nacional. You Yang expresou optimismo sobre o futuro: «DeepSeek infunde confianza nas solucións producidas no país, fomentando un maior entusiasmo e investimento en capacidades computacionais nacionais no futuro».

微信图片_20240614024031.jpg1

Conclusión

Que DeepSeek sexa "mellor" que ChatGPT depende das necesidades e obxectivos específicos do usuario. Para tarefas que requiren flexibilidade, baixo custo e personalización, DeepSeek pode ser superior. Para escritura creativa, consultas xerais e interfaces conversacionais fáciles de usar, ChatGPT pode tomar a dianteira. Cada ferramenta serve para diferentes propósitos, polo que a elección dependerá en gran medida do contexto no que se empregue.

Atopar unha solución de cable ELV

Cables de control

Para BMS, BUS, industrial, cable de instrumentación.

Sistema de cableado estruturado

Rede e datos, cable de fibra óptica, cable de conexión, módulos, placa frontal

Revisión de exposicións e eventos de 2024

16-18 de abril de 2024. Enerxía de Oriente Medio en Dubai

16-18 de abril de 2024 Securika en Moscova

9 de maio de 2024. Evento de lanzamento de novos produtos e tecnoloxías en Shanghai.

22-25 de outubro de 2024 SECURITY CHINA en Pequín

19-20 de novembro de 2024 MUNDO CONECTADO KSA


Data de publicación: 10 de febreiro de 2025