Título original: "Por trás do modelo "Jiang Ziya", a evolução de uma equipe profissional de IA"
Desde que os cientistas desenvolveram o primeiro programa de IA "damas" em 1956, a IA foi desenvolvida por quase 70 anos. Durante este período, houve vários fluxos e refluxos, mas um segmento principal o permeia: isso é "modelagem" - a proporção de "modelo" na IA está ficando cada vez maior. Essa tendência atingiu o pico após o surgimento do grande modelo de linguagem ChatGPT.
“Acreditamos firmemente que o futuro da IA é o mundo dos modelos e não podemos enfatizar demais os modelos”.
Em 22 de julho, na conferência AGI Playground organizada pelo Geek Park, Zhang Jiaxing, cientista presidente de computação cognitiva e linguagem natural do Instituto de Pesquisa IDEA (Economia Digital na Área da Grande Baía de Guangdong-Hong Kong-Macau), disse.
Em 2021, Zhang Jiaxing liderou a equipe CCNL Fengshenbang do IDEA Research Institute para criar o maior sistema de modelo de pré-treinamento de código aberto chinês "Fengshenbang", que é o "precursor" do modelo. Eles testemunharam a "mudança de paradigma" provocada pelos grandes modelos.
Zhang Jiaxing acredita que esta transferência inclui duas palavras-chave, "desaparecer" e "formar". "Desaparecimento" significa que Com a chegada do modelo grande de uso geral do ChatGPT, tipos específicos de modelos usados para extração de informações, perguntas e respostas e saída de texto estão desaparecendo. "Formação" significa que a capacidade de testar a engenharia por trás do grande modelo formará um novo nicho ecológico** desde o nascimento do modelo até o ajuste fino até o pouso.
O IDEA Research Institute CCNL também está se estabelecendo no novo nicho ecológico.
Além de desenvolver um modelo de capacidade total - no momento, a equipe de Fengshenbang gerou um grande modelo de uso geral de "Jiang Ziya" (Ziya) baseado em LLaMa, que foi aplicado a cenários como humanos digitais e direitos autorais. Há cerca de um mês, eles também treinaram uma série de modelos especialistas, como modelos multimodais, modelos de código, modelos de escrita, modelos de diálogo, etc. O último pode ajudar os usuários a escrever artigos, direitos autorais de novas mídias, scripts de transmissão ao vivo, pôsteres promocionais e até romances online.
Zhang Jiaxing acredita que neste enorme ecossistema, os empreendedores podem pensar onde ocupar o nicho ecológico com base em suas próprias forças. “Qualquer pessoa interessada em entrar no ramo de grandes modelos pode encontrar seu lugar nele”, disse ele.
A seguir, o texto completo do discurso de Zhang Jiaxing na AGI Playground Conference, editado por Geek Park:
Na conferência AGI Playground organizada pelo Geek Park, Zhang Jiaxing fez um discurso
01. Era do Grande Modelo: Novo Paradigma e Nova Ecologia
Este ano, quando falamos sobre grandes modelos e AGI, sempre consideramos grandes modelos como algo natural em IA. No futuro, mesmo que voltemos a 1997, uma coisa muito importante é que "Deep Blue" derrotou "Kasparov". Mesmo esse sistema de IA não possui um modelo de aprendizado profundo.
Todo o processo de desenvolvimento da IA começou em 1956 e já se passaram 70 anos. Embora a IA tenha experimentado vários fluxos e refluxos, podemos descobrir que o desenvolvimento da IA tem ocorrido ao longo de uma linha, que é o processo de modelagem da IA - a proporção de modelos na IA está ficando cada vez mais forte. Acreditamos firmemente que no futuro a IA será dominada por modelos, e não podemos enfatizar excessivamente os modelos.
Imagem: Zhang Jiaxing fala sobre o processo de "modelagem" da IA
Todos nós dizemos que o grande modelo desta vez é uma mudança no "paradigma técnico", que pode ser resumido em duas palavras-chave, "desaparecer" e "formar".
"Desaparecer" refere-se ao desaparecimento do tipo. Meio ano atrás, todo o campo de IA foi inundado com diferentes tipos de estruturas e tarefas de IA. Por exemplo, em termos de estrutura, existem várias estruturas modelo como BERT e T5. Por exemplo, em termos de tarefas, existem várias tarefas como classificação, extração de informações, redação de resumos e perguntas e respostas. No entanto, com o advento da era dos grandes modelos de uso geral, essa diversidade está desaparecendo.
No momento, a única estrutura de modelo é GPT e as únicas tarefas são entrada e saída de texto. Portanto, os conceitos anteriores de IA, como análise de frases, palavras-chave e outros conceitos, desapareceram gradualmente de nosso campo de visão. Além disso, o uso de modelos hoje não fica mais a critério do provedor da tecnologia, mas a critério do cliente que a utiliza.
E "formação" refere-se à formação da cadeia produtiva. A construção de uma maquete exige um grande investimento de recursos, e quase ninguém consegue realizar essa tarefa do início ao fim sozinho. Requer uma equipe enorme e muito poder de computação por trás para aperfeiçoá-lo. Desde a concepção inicial do modelo, até o ajuste fino de vários estágios no meio, e até a prática de pouso final, isso constitui uma cadeia de produção completa.
A partir do “desaparecimento” e da “formação”, podemos perceber a “mudança de paradigma” do grande modelo. Às vezes, o progresso tecnológico é implacável, independente da vontade individual, e novos paradigmas tecnológicos substituirão velhos paradigmas tecnológicos.
Então, qual é o valor de grandes modelos como este novo paradigma tecnológico? Na minha opinião, traz quatro valores completamente novos:
1 Nova Compreensão
Em termos de compreensão da linguagem natural, o modelo grande atual excede em muito todos os modelos anteriores. Parece realmente entender o significado de cada palavra nossa. Embora as respostas possam não ser totalmente precisas, surge um novo nível de compreensão.
2 novas ferramentas
Não é apenas uma ferramenta para melhorar a eficiência, mas também pode liberar as pessoas do trabalho pesado. É também uma ferramenta criativa que pode criar coisas que os humanos não podem criar. Por exemplo, o modelo de difusão do ano passado demonstrou as capacidades do gráfico de Vinsen.
3 novas interfaces
No passado, tínhamos que escrever programas para acessar dados e APIs, mas agora parece que não precisamos mais escrever códigos complicados, precisamos apenas descrever em linguagem natural e o modelo grande pode gerar códigos automaticamente.
4 NOVOS MOTORES
O modelo grande não é apenas um ponto único de capacidade, ele pode ser usado como um mecanismo para direcionar a recuperação de informações, a geração de diálogos e até mesmo a criação de histórias.
O grande modelo também traz uma nova ecologia, que é como se integrar com a indústria e implementá-la.
Acreditamos que modelos grandes não são apenas APIs simples ou modelos imutáveis. Ressaltamos que depois que a empresa upstream produz o modelo, os clientes downstream precisam realizar mais treinamentos e percorrer a última milha. Dessa forma, o modelo pode ser inserido no cenário de cada cliente. À medida que o modelo funciona melhor, mais dados são coletados, o que, por sua vez, fortalece o modelo. Isso pode realmente promover o desenvolvimento de toda a indústria.
Nesta nova ecologia, o mais upstream é a empresa que faz o modelo básico, e há muitas equipes abaixo do modelo básico, que se concentrarão em modelos de capacidades ou campos específicos. Para continuar, é cooperar com empresas de soluções, fabricantes de nuvem e fabricantes de hardware para criar uma variedade de produtos e, finalmente, atender às empresas e governos de desembarque.
Imagem: A nova ecologia do grande modelo descrito por Zhang Jiaxing
Do modelo básico à implementação real, isso envolve muitos links e links, e também deu origem a muitos novos nichos ecológicos. Acho que cada um pode juntar as suas forças e pensar onde quer ocupar neste ecossistema. De fato, qualquer pessoa que esteja disposta a se dedicar ao campo dos modelos em grande escala pode encontrar seu lugar nele.
02. ** Atrás do grande modelo de "Jiang Ziya"**
Somos uma equipe há dois anos e está claro em nossa experiência que essa mudança de paradigma nos afetou.
Até o final do ano passado, desenvolvíamos um grande número de modelos de código aberto, realizando diferentes estruturas de modelos e tipos de tarefas. Em apenas um ano, abrimos 98 modelos de código aberto, estabelecendo um recorde no campo chinês.
No entanto, no final do ano passado, o modelo de Wen Shengtu apareceu repentinamente como um produto quente. Então começamos a virar e fizemos o primeiro modelo de difusão estável de código aberto em chinês, que chamamos de modelo "Taiyi". Esperamos acompanhar as mudanças de paradigma tecnológico para grandes modelos.
Na era atual de grandes modelos de uso geral, o que nossa equipe está fazendo horas extras é treinar os melhores modelos grandes de base de código aberto para chineses. Isso é conhecido como LLaMA2. Treinamos tokens 20B. Em comparação com o modelo "ziya-LLaMA-13B" treinado anteriormente, a velocidade de treinamento aumentou 38%, o que resolveu completamente o problema de "vôo de treinamento" instável (treinamento anormal) durante o processo de treinamento.
Figura: Após o treinamento do token 20B, o LLaMA2 resolve o problema de "vôo de treinamento" instável durante o processo de treinamento
Depois de treinarmos esse modelo, ele será totalmente de código aberto e não haverá restrições para aplicativos comerciais. Ao mesmo tempo, prometemos continuar treinando esse modelo, esperando fornecer o melhor código aberto e base de modelo disponível comercialmente para toda a grande comunidade de modelos.
Sob o atual paradigma tecnológico, a introdução do ChatGPT este ano empolgou muitas pessoas, dizendo que o grande modelo de uso geral vai atrapalhar todas as esferas da vida. Porém, com o passar do tempo, nos acalmamos e descobrimos que o big model é na verdade apenas uma purificação e otimização da cena existente. Portanto, reconhecemos que ainda existem muitas possibilidades e oportunidades para a aplicação de grandes modelos em indústrias verticais, domínios e capacidades.
Há cerca de um mês, nossa equipe produziu uma série de modelos especialistas, como modelos multimodais, modelos de código, modelos de escrita, modelos de diálogo, etc. Muitos deles já foram lançados e estão no melhor nível da área.
Recentemente, abrimos o código do modelo de colaboração chinês, chamado "escrita Ziya". Esperamos que este modelo possa se tornar um assistente pronto para uso para fornecer suporte a empresas e indivíduos para melhorar a eficiência. Por exemplo, funcionários do governo podem pedir a Ziya por escrito para ajudar a escrever um relatório de desastre ou escrever um discurso de líder na cerimônia de abertura, porque se encaixa muito bem no estilo do relatório de política.
Além disso, também pode liberar os criadores, operadores e comerciantes da comunidade chinesa para ajudar a escrever vários tipos de artigos, direitos autorais, artigos flexíveis e até mesmo criar excelentes contos ou até mesmo um antigo romance de fantasia na web. Podemos ver que tem um desempenho muito bom em termos de lógica de estrutura de capítulos e enredo.
Também desenvolvemos um pacote de recuperação que utilizava apenas 100 milhões de parâmetros. Funciona melhor do que algumas soluções atuais nos domínios jurídico e financeiro, ainda melhor do que os melhores modelos vetoriais atualmente de código aberto. Nosso kit de ferramentas também pode ser uma pequena ajuda no setor financeiro, auxiliando pesquisadores e analistas.
Por que podemos produzir tantos modelos de alta qualidade?
Por trás disso estão nossas muitas acumulações, incluindo um sistema de treinamento de três estágios (PT de pré-treinamento, SFT de ajuste fino supervisionado, aprendizado de feedback humano RLHF), incluindo uma grande quantidade de dados acumulados de alta qualidade, alguns algoritmos autodesenvolvidos e sua precipitação em nosso sistema de treinamento.
Cada um de nossos modelos suporta versões open source e comerciais, e autorizamos nossos parceiros a realizar treinamentos e ajustes, permitindo que eles façam treinamentos privados em seus próprios cenários.
Do pequeno para o grande, as mudanças de uma das nossas equipas refletem também as mudanças do atual paradigma técnico na área dos grandes modelos.
03, perguntas no local
Figura: A equipe do IDEA aceita perguntas no local
**P: Como você vê a futura arquitetura de inferência de hardware? O futuro hardware será "integrado com treinamento e promoção" por um longo tempo ou haverá oportunidades para chips de raciocínio dedicados? **
Zhang Jiaxing: Originalmente, tínhamos dois tipos de chips para treinamento e raciocínio, mas o chip de raciocínio atual obviamente não pode se adaptar ao modelo grande atual.
Portanto, atualmente, basicamente em termos de limitações de hardware, há mais "integração de treinamento e push". E a grande vantagem de integrar treinamento e push é que ele pode reutilizar o poder de computação. Nosso raciocínio pode não estar sempre em plena carga, então podemos aproveitar ao máximo o tempo mínimo de treinamento, que também é considerado sob a ótica do tempo econômico.
No futuro, os chips de raciocínio ainda terão seu significado. Em alguns cenários, como terminais móveis, computação de borda ou dispositivos montados em veículos, ainda são necessários chips de inferência personalizados especiais. Mesmo na nuvem e nos servidores, se o chip de inferência puder ser mais otimizado para baixo consumo de energia ou outros aspectos, ele ainda terá significado. Acho que ainda deve haver chips dedicados para coisas especializadas no futuro.
**P: Para algumas aplicações verticais, de quais ângulos devemos coletar dados? Como construir um conjunto de dados de alta qualidade? **
Zhang Jiaxing: Na verdade, todos os nossos dados também são coletados gradualmente. Desde o início, existem apenas 20 ou 30 conjuntos de dados. Mas, lentamente, por meio do treinamento, por exemplo, qual parte da habilidade está faltando, coletaremos alguns desses dados de maneira direcionada e, ao mesmo tempo, acumularemos parte de nossa própria experiência, como processamento de dados e coisas do gênero.
Finalmente, se não houver tal coisa, nós mesmos construiremos alguns dados. Por exemplo, para conversas com várias pessoas, etc., temos uma variedade de tipos diferentes de conjuntos de dados nele.
**P: Por que existem tantos modelos de habilidades especiais? Por que não aumentar esses recursos simultaneamente no mesmo modelo? **
Zhang Jiaxing: Temos várias considerações. A primeira é que selecionamos o tamanho do modelo com antecedência. Depois de escolher o tamanho do modelo, queremos que o modelo tenha quais recursos. Esta é uma proposta sob condições limitadas. Esta é uma vantagem de custo muito grande.
Neste momento, quero colocar todas as habilidades em um grande modelo, mas essas habilidades são mutuamente exclusivas em termos de tempo e espaço. Em termos de espaço, algumas habilidades são mutuamente exclusivas, por exemplo, quando fizemos questões de raciocínio lógico, como questões de matemática e questões de redação, elas estavam em conflito. Além disso, há um conflito de tempo. Em um determinado momento, uma certa habilidade é a mais forte, mas outras habilidades podem não ser muito fortes.
Como os cenários downstream exigem apenas um único recurso, simplesmente selecionamos determinados conjuntos de dados específicos para treinar determinadas tarefas, que são modelos dedicados.
**P: Você mencionou que o problema de "voo de treinamento" instável foi resolvido, como isso foi resolvido? **
Zhang Jiaxing: Há um ponto-chave aqui. Primeiro, ajustamos nosso treinamento. Fizemos alterações na camada de código-fonte durante o treinamento distribuído. De fato, a estabilidade do treinamento é muito mais forte. Quando treinamos Ziya-LLaMA-13B, a curva desse conjunto de treinamento ficou estável. Somos uma grande equipa de modelos muito focada na tecnologia de formação, o que também é a garantia para continuarmos a fazer bons modelos.
**P: Em relação à discussão de domínio público e grandes modelos privatizados, o modelo deve ser privatizado? Por exemplo, se eu quiser fazer um aplicativo para C, não posso fazer uma implantação privatizada? **
Zhang Jiaxing: Em primeiro lugar, descobrimos que nossos parceiros têm alguns requisitos de conformidade e privacidade de segurança de dados, e seus dados não podem ser usados para treinamento com modelos públicos. Em segundo lugar, eles precisam ter uma cena muito aprofundada e requisitos personalizados.Independentemente de ser um produto para B ou um produto para C, todos esperam usá-lo em sua própria cena.
No momento, o grande modelo público ou a base de modelo grande geral não podem atender totalmente a todas as suas necessidades; portanto, o treinamento privado e a implantação privada tornaram-se obrigatórios.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Ponto de vista: No futuro, a IA será governada por modelos, e a importância dos modelos não pode ser superestimada
Fonte: Geek Park See More
Autor: Xing Fu
Título original: "Por trás do modelo "Jiang Ziya", a evolução de uma equipe profissional de IA"
Desde que os cientistas desenvolveram o primeiro programa de IA "damas" em 1956, a IA foi desenvolvida por quase 70 anos. Durante este período, houve vários fluxos e refluxos, mas um segmento principal o permeia: isso é "modelagem" - a proporção de "modelo" na IA está ficando cada vez maior. Essa tendência atingiu o pico após o surgimento do grande modelo de linguagem ChatGPT.
“Acreditamos firmemente que o futuro da IA é o mundo dos modelos e não podemos enfatizar demais os modelos”.
Em 22 de julho, na conferência AGI Playground organizada pelo Geek Park, Zhang Jiaxing, cientista presidente de computação cognitiva e linguagem natural do Instituto de Pesquisa IDEA (Economia Digital na Área da Grande Baía de Guangdong-Hong Kong-Macau), disse.
Em 2021, Zhang Jiaxing liderou a equipe CCNL Fengshenbang do IDEA Research Institute para criar o maior sistema de modelo de pré-treinamento de código aberto chinês "Fengshenbang", que é o "precursor" do modelo. Eles testemunharam a "mudança de paradigma" provocada pelos grandes modelos.
Zhang Jiaxing acredita que esta transferência inclui duas palavras-chave, "desaparecer" e "formar". "Desaparecimento" significa que Com a chegada do modelo grande de uso geral do ChatGPT, tipos específicos de modelos usados para extração de informações, perguntas e respostas e saída de texto estão desaparecendo. "Formação" significa que a capacidade de testar a engenharia por trás do grande modelo formará um novo nicho ecológico** desde o nascimento do modelo até o ajuste fino até o pouso.
O IDEA Research Institute CCNL também está se estabelecendo no novo nicho ecológico.
Além de desenvolver um modelo de capacidade total - no momento, a equipe de Fengshenbang gerou um grande modelo de uso geral de "Jiang Ziya" (Ziya) baseado em LLaMa, que foi aplicado a cenários como humanos digitais e direitos autorais. Há cerca de um mês, eles também treinaram uma série de modelos especialistas, como modelos multimodais, modelos de código, modelos de escrita, modelos de diálogo, etc. O último pode ajudar os usuários a escrever artigos, direitos autorais de novas mídias, scripts de transmissão ao vivo, pôsteres promocionais e até romances online.
Zhang Jiaxing acredita que neste enorme ecossistema, os empreendedores podem pensar onde ocupar o nicho ecológico com base em suas próprias forças. “Qualquer pessoa interessada em entrar no ramo de grandes modelos pode encontrar seu lugar nele”, disse ele.
A seguir, o texto completo do discurso de Zhang Jiaxing na AGI Playground Conference, editado por Geek Park:
01. Era do Grande Modelo: Novo Paradigma e Nova Ecologia
Este ano, quando falamos sobre grandes modelos e AGI, sempre consideramos grandes modelos como algo natural em IA. No futuro, mesmo que voltemos a 1997, uma coisa muito importante é que "Deep Blue" derrotou "Kasparov". Mesmo esse sistema de IA não possui um modelo de aprendizado profundo.
Todo o processo de desenvolvimento da IA começou em 1956 e já se passaram 70 anos. Embora a IA tenha experimentado vários fluxos e refluxos, podemos descobrir que o desenvolvimento da IA tem ocorrido ao longo de uma linha, que é o processo de modelagem da IA - a proporção de modelos na IA está ficando cada vez mais forte. Acreditamos firmemente que no futuro a IA será dominada por modelos, e não podemos enfatizar excessivamente os modelos.
Todos nós dizemos que o grande modelo desta vez é uma mudança no "paradigma técnico", que pode ser resumido em duas palavras-chave, "desaparecer" e "formar".
"Desaparecer" refere-se ao desaparecimento do tipo. Meio ano atrás, todo o campo de IA foi inundado com diferentes tipos de estruturas e tarefas de IA. Por exemplo, em termos de estrutura, existem várias estruturas modelo como BERT e T5. Por exemplo, em termos de tarefas, existem várias tarefas como classificação, extração de informações, redação de resumos e perguntas e respostas. No entanto, com o advento da era dos grandes modelos de uso geral, essa diversidade está desaparecendo.
No momento, a única estrutura de modelo é GPT e as únicas tarefas são entrada e saída de texto. Portanto, os conceitos anteriores de IA, como análise de frases, palavras-chave e outros conceitos, desapareceram gradualmente de nosso campo de visão. Além disso, o uso de modelos hoje não fica mais a critério do provedor da tecnologia, mas a critério do cliente que a utiliza.
E "formação" refere-se à formação da cadeia produtiva. A construção de uma maquete exige um grande investimento de recursos, e quase ninguém consegue realizar essa tarefa do início ao fim sozinho. Requer uma equipe enorme e muito poder de computação por trás para aperfeiçoá-lo. Desde a concepção inicial do modelo, até o ajuste fino de vários estágios no meio, e até a prática de pouso final, isso constitui uma cadeia de produção completa.
A partir do “desaparecimento” e da “formação”, podemos perceber a “mudança de paradigma” do grande modelo. Às vezes, o progresso tecnológico é implacável, independente da vontade individual, e novos paradigmas tecnológicos substituirão velhos paradigmas tecnológicos.
Então, qual é o valor de grandes modelos como este novo paradigma tecnológico? Na minha opinião, traz quatro valores completamente novos:
1 Nova Compreensão
Em termos de compreensão da linguagem natural, o modelo grande atual excede em muito todos os modelos anteriores. Parece realmente entender o significado de cada palavra nossa. Embora as respostas possam não ser totalmente precisas, surge um novo nível de compreensão.
2 novas ferramentas
Não é apenas uma ferramenta para melhorar a eficiência, mas também pode liberar as pessoas do trabalho pesado. É também uma ferramenta criativa que pode criar coisas que os humanos não podem criar. Por exemplo, o modelo de difusão do ano passado demonstrou as capacidades do gráfico de Vinsen.
3 novas interfaces
No passado, tínhamos que escrever programas para acessar dados e APIs, mas agora parece que não precisamos mais escrever códigos complicados, precisamos apenas descrever em linguagem natural e o modelo grande pode gerar códigos automaticamente.
4 NOVOS MOTORES
O modelo grande não é apenas um ponto único de capacidade, ele pode ser usado como um mecanismo para direcionar a recuperação de informações, a geração de diálogos e até mesmo a criação de histórias.
O grande modelo também traz uma nova ecologia, que é como se integrar com a indústria e implementá-la.
Acreditamos que modelos grandes não são apenas APIs simples ou modelos imutáveis. Ressaltamos que depois que a empresa upstream produz o modelo, os clientes downstream precisam realizar mais treinamentos e percorrer a última milha. Dessa forma, o modelo pode ser inserido no cenário de cada cliente. À medida que o modelo funciona melhor, mais dados são coletados, o que, por sua vez, fortalece o modelo. Isso pode realmente promover o desenvolvimento de toda a indústria.
Nesta nova ecologia, o mais upstream é a empresa que faz o modelo básico, e há muitas equipes abaixo do modelo básico, que se concentrarão em modelos de capacidades ou campos específicos. Para continuar, é cooperar com empresas de soluções, fabricantes de nuvem e fabricantes de hardware para criar uma variedade de produtos e, finalmente, atender às empresas e governos de desembarque.
Do modelo básico à implementação real, isso envolve muitos links e links, e também deu origem a muitos novos nichos ecológicos. Acho que cada um pode juntar as suas forças e pensar onde quer ocupar neste ecossistema. De fato, qualquer pessoa que esteja disposta a se dedicar ao campo dos modelos em grande escala pode encontrar seu lugar nele.
02. ** Atrás do grande modelo de "Jiang Ziya"**
Somos uma equipe há dois anos e está claro em nossa experiência que essa mudança de paradigma nos afetou.
Até o final do ano passado, desenvolvíamos um grande número de modelos de código aberto, realizando diferentes estruturas de modelos e tipos de tarefas. Em apenas um ano, abrimos 98 modelos de código aberto, estabelecendo um recorde no campo chinês.
No entanto, no final do ano passado, o modelo de Wen Shengtu apareceu repentinamente como um produto quente. Então começamos a virar e fizemos o primeiro modelo de difusão estável de código aberto em chinês, que chamamos de modelo "Taiyi". Esperamos acompanhar as mudanças de paradigma tecnológico para grandes modelos.
Na era atual de grandes modelos de uso geral, o que nossa equipe está fazendo horas extras é treinar os melhores modelos grandes de base de código aberto para chineses. Isso é conhecido como LLaMA2. Treinamos tokens 20B. Em comparação com o modelo "ziya-LLaMA-13B" treinado anteriormente, a velocidade de treinamento aumentou 38%, o que resolveu completamente o problema de "vôo de treinamento" instável (treinamento anormal) durante o processo de treinamento.
Depois de treinarmos esse modelo, ele será totalmente de código aberto e não haverá restrições para aplicativos comerciais. Ao mesmo tempo, prometemos continuar treinando esse modelo, esperando fornecer o melhor código aberto e base de modelo disponível comercialmente para toda a grande comunidade de modelos.
Sob o atual paradigma tecnológico, a introdução do ChatGPT este ano empolgou muitas pessoas, dizendo que o grande modelo de uso geral vai atrapalhar todas as esferas da vida. Porém, com o passar do tempo, nos acalmamos e descobrimos que o big model é na verdade apenas uma purificação e otimização da cena existente. Portanto, reconhecemos que ainda existem muitas possibilidades e oportunidades para a aplicação de grandes modelos em indústrias verticais, domínios e capacidades.
Há cerca de um mês, nossa equipe produziu uma série de modelos especialistas, como modelos multimodais, modelos de código, modelos de escrita, modelos de diálogo, etc. Muitos deles já foram lançados e estão no melhor nível da área.
Recentemente, abrimos o código do modelo de colaboração chinês, chamado "escrita Ziya". Esperamos que este modelo possa se tornar um assistente pronto para uso para fornecer suporte a empresas e indivíduos para melhorar a eficiência. Por exemplo, funcionários do governo podem pedir a Ziya por escrito para ajudar a escrever um relatório de desastre ou escrever um discurso de líder na cerimônia de abertura, porque se encaixa muito bem no estilo do relatório de política.
Além disso, também pode liberar os criadores, operadores e comerciantes da comunidade chinesa para ajudar a escrever vários tipos de artigos, direitos autorais, artigos flexíveis e até mesmo criar excelentes contos ou até mesmo um antigo romance de fantasia na web. Podemos ver que tem um desempenho muito bom em termos de lógica de estrutura de capítulos e enredo.
Também desenvolvemos um pacote de recuperação que utilizava apenas 100 milhões de parâmetros. Funciona melhor do que algumas soluções atuais nos domínios jurídico e financeiro, ainda melhor do que os melhores modelos vetoriais atualmente de código aberto. Nosso kit de ferramentas também pode ser uma pequena ajuda no setor financeiro, auxiliando pesquisadores e analistas.
Por que podemos produzir tantos modelos de alta qualidade?
Por trás disso estão nossas muitas acumulações, incluindo um sistema de treinamento de três estágios (PT de pré-treinamento, SFT de ajuste fino supervisionado, aprendizado de feedback humano RLHF), incluindo uma grande quantidade de dados acumulados de alta qualidade, alguns algoritmos autodesenvolvidos e sua precipitação em nosso sistema de treinamento.
Cada um de nossos modelos suporta versões open source e comerciais, e autorizamos nossos parceiros a realizar treinamentos e ajustes, permitindo que eles façam treinamentos privados em seus próprios cenários.
Do pequeno para o grande, as mudanças de uma das nossas equipas refletem também as mudanças do atual paradigma técnico na área dos grandes modelos.
03, perguntas no local
**P: Como você vê a futura arquitetura de inferência de hardware? O futuro hardware será "integrado com treinamento e promoção" por um longo tempo ou haverá oportunidades para chips de raciocínio dedicados? **
Zhang Jiaxing: Originalmente, tínhamos dois tipos de chips para treinamento e raciocínio, mas o chip de raciocínio atual obviamente não pode se adaptar ao modelo grande atual.
Portanto, atualmente, basicamente em termos de limitações de hardware, há mais "integração de treinamento e push". E a grande vantagem de integrar treinamento e push é que ele pode reutilizar o poder de computação. Nosso raciocínio pode não estar sempre em plena carga, então podemos aproveitar ao máximo o tempo mínimo de treinamento, que também é considerado sob a ótica do tempo econômico.
No futuro, os chips de raciocínio ainda terão seu significado. Em alguns cenários, como terminais móveis, computação de borda ou dispositivos montados em veículos, ainda são necessários chips de inferência personalizados especiais. Mesmo na nuvem e nos servidores, se o chip de inferência puder ser mais otimizado para baixo consumo de energia ou outros aspectos, ele ainda terá significado. Acho que ainda deve haver chips dedicados para coisas especializadas no futuro.
**P: Para algumas aplicações verticais, de quais ângulos devemos coletar dados? Como construir um conjunto de dados de alta qualidade? **
Zhang Jiaxing: Na verdade, todos os nossos dados também são coletados gradualmente. Desde o início, existem apenas 20 ou 30 conjuntos de dados. Mas, lentamente, por meio do treinamento, por exemplo, qual parte da habilidade está faltando, coletaremos alguns desses dados de maneira direcionada e, ao mesmo tempo, acumularemos parte de nossa própria experiência, como processamento de dados e coisas do gênero.
Finalmente, se não houver tal coisa, nós mesmos construiremos alguns dados. Por exemplo, para conversas com várias pessoas, etc., temos uma variedade de tipos diferentes de conjuntos de dados nele.
**P: Por que existem tantos modelos de habilidades especiais? Por que não aumentar esses recursos simultaneamente no mesmo modelo? **
Zhang Jiaxing: Temos várias considerações. A primeira é que selecionamos o tamanho do modelo com antecedência. Depois de escolher o tamanho do modelo, queremos que o modelo tenha quais recursos. Esta é uma proposta sob condições limitadas. Esta é uma vantagem de custo muito grande.
Neste momento, quero colocar todas as habilidades em um grande modelo, mas essas habilidades são mutuamente exclusivas em termos de tempo e espaço. Em termos de espaço, algumas habilidades são mutuamente exclusivas, por exemplo, quando fizemos questões de raciocínio lógico, como questões de matemática e questões de redação, elas estavam em conflito. Além disso, há um conflito de tempo. Em um determinado momento, uma certa habilidade é a mais forte, mas outras habilidades podem não ser muito fortes.
Como os cenários downstream exigem apenas um único recurso, simplesmente selecionamos determinados conjuntos de dados específicos para treinar determinadas tarefas, que são modelos dedicados.
**P: Você mencionou que o problema de "voo de treinamento" instável foi resolvido, como isso foi resolvido? **
Zhang Jiaxing: Há um ponto-chave aqui. Primeiro, ajustamos nosso treinamento. Fizemos alterações na camada de código-fonte durante o treinamento distribuído. De fato, a estabilidade do treinamento é muito mais forte. Quando treinamos Ziya-LLaMA-13B, a curva desse conjunto de treinamento ficou estável. Somos uma grande equipa de modelos muito focada na tecnologia de formação, o que também é a garantia para continuarmos a fazer bons modelos.
**P: Em relação à discussão de domínio público e grandes modelos privatizados, o modelo deve ser privatizado? Por exemplo, se eu quiser fazer um aplicativo para C, não posso fazer uma implantação privatizada? **
Zhang Jiaxing: Em primeiro lugar, descobrimos que nossos parceiros têm alguns requisitos de conformidade e privacidade de segurança de dados, e seus dados não podem ser usados para treinamento com modelos públicos. Em segundo lugar, eles precisam ter uma cena muito aprofundada e requisitos personalizados.Independentemente de ser um produto para B ou um produto para C, todos esperam usá-lo em sua própria cena.
No momento, o grande modelo público ou a base de modelo grande geral não podem atender totalmente a todas as suas necessidades; portanto, o treinamento privado e a implantação privada tornaram-se obrigatórios.