Serviço de notícias da China, Pequim, 3 de junho (repórter Xia bin) Nos últimos anos, a fim de buscar as capacidades inteligentes de grandes modelos, empresas de vários países continuaram investindo. Em abril, a Meta anunciou que investiria 1 bilhão dólares em investimento para o desenvolvimento de chips de IA e a construção de data center; a Amazon investiu US $ 11 bilhões para construir um novo data center.Mas, por trás da expansão de grandes modelos, o custo de computação e energia é igualmente enorme. uol bingo
Alguma equipe técnica do setor estima que, se um grande modelo de uma escala de 500 bilhões de parâmetros for totalmente treinado, a infraestrutura de energia de computação necessária é de cerca de US $ 1 bilhão e o custo anual da eletricidade é de 530 milhões de yuans.Independentemente de qual instituição ou empresa, essa é uma figura astronômica e um preço enorme, e a China não é exceção. uol bingo
A bela revista científica "Nature" publicou anteriormente um artigo sobre o desenvolvimento futuro de grandes modelos, "em Al, é maior sempre melhor?"O surgimento de disputas significa que existem diferenças na direção do desenvolvimento da IA.
Hoje, "Big" não é mais a única busca do modelo.
A otimização do custo do raciocínio em grandes modelos pode ser alcançada por muitos meios técnicos.O primeiro é o próprio modelo.Seguido de otimização de engenharia.Quanto maior o volume de chamadas de grandes modelos, maior o espaço para otimizar o custo do raciocínio.Os modelos anteriores eram um raciocínio único de máquina e grandes modelos usavam raciocínio distribuído.Portanto, se você puder usar melhor uma variedade de poder de computação subjacente, o custo do raciocínio será bastante reduzido.
A prevalência de modelos MOE corresponde à solução dos dois principais problemas dos recursos do modelo e da sobrecarga da potência de computação.É por isso que muitos fabricantes de modelos importantes, como OpenAI, Google, Mistral IA e Inspur, as informações atualizaram sucessivamente seus próprios produtos modelo com base na arquitetura MOE.
Da perspectiva do modelo de código aberto "Fonte 2.0-M32", lançado pela Inspur Information, ele possui uma base de trabalho com base na série "Fonte 2.0" de grandes modelos. A tecnologia a ser construída contendo contendo o modelo de especialista misto (MOE) de 32 especialistas (MOE) melhorou bastante a eficiência de poder da computação do modelo. Modelo de origem com um desempenho abrangente de 70 bilhões de parâmetros na essência de avaliação de referência principal do setor
Wu Shaohua, cientista -chefe da Inteligência Artificial da Informação de Inteligência Artificial, disse em entrevista ao Chinanews.com que estamos pensando em como consumir o efeito da aplicação de todo o modelo grande com menor poder de computação. custo."Este pode ser um caminho válido para a China desenvolver seu próprio modelo de IA".
Ele afirmou sem rodeios que o avanço do grande modelo está ficando cada vez mais rápido, e a eficiência de poder da computação do modelo deve ser enfatizada."Todos podem imaginar que quanto maior a eficiência, maior os retornos de precisão obtidos no caso de igual poder de investimento na unidade. É muito benéfico para treinamento e aplicação". uol bingo
"O poder de computação da realidade é limitado. Enfatizamos repetidamente a eficiência do molde e tentando romper o poder de computação atual. No caso de fixar cada token, você pode obter um modelo com parâmetros maiores e, em seguida, obter maior precisão. "Wu Shaohua disse. uol bingo
Ele afirmou ainda que, como um todo, embora a capacidade do modelo atual seja muito rápida, todo mundo presta mais atenção ao problema das dimensões únicas antes, ou seja, a melhoria da precisão média.No entanto, na era do pouso rápido, os problemas de mais dimensões precisam ser considerados, incluindo eficiência de moldagem, precisão, sobrecarga de potência de computação etc.
Zheng Weimin, um acadêmico da Academia Chinesa de Engenharia, fez esse cálculo. o poder de computação.
Para resolver o problema do poder de computação insuficiente do treinamento de grandes modelos, Zheng Weimin sugeriu que, ao mesmo tempo de promoção da construção do centro de computação inteligente, ele também pode usar as deficiências do sistema de supercomputação existente.
Zheng Weimin disse que o custo de construção de cada máquina tem um alto custo de cada máquina, e o custo é de 1 bilhão a 2 bilhões de yuan, ou até mais.Esses sistemas de supercomputação fizeram grandes contribuições para o desenvolvimento da economia nacional da China, mas alguns sistemas ainda têm poder alternativo gratuito. Treinamento modelo.
Para a recente rodada de grandes modelos de empresas chinesas, Li Kaifu, CEO da Zero 1.000 Yuan, disse que o custo de raciocínio de todo o setor no futuro pode ser reduzido dez vezes por ano, e essa tendência é inevitável Usará pessoas grandes.(sobre)
Fale conosco. Envie dúvidas, críticas ou sugestões para a nossa equipe através dos contatos abaixo:
Telefone: 0086-10-8805-0795
Email: portuguese@9099.com