A quebra de capacidade de texto longo dos grandes modelos: um salto de 4000 tokens para 400.000 tokens.

robot
Geração do resumo em andamento

Aumento da capacidade de texto longo de grandes modelos: da era LLM para a era Long LLM

A tecnologia de grandes modelos está a evoluir a uma velocidade incrível, com a capacidade de processamento de texto a saltar de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece estar a tornar-se um novo padrão para os fornecedores de grandes modelos.

No exterior, a OpenAI aumentou a extensão do contexto do GPT-4 para 32.000 tokens através de várias atualizações. A Anthropic elevou a extensão do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA expandiu a extensão do contexto para 256.000 tokens ou até mais.

No âmbito nacional, um produto de assistente inteligente lançado por uma startup de grandes modelos pode suportar a entrada de 200 mil caracteres chineses, o que corresponde a cerca de 400 mil tokens. Uma equipa de pesquisa da Universidade Chinesa de Hong Kong desenvolveu a tecnologia LongLoRA, que pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens e de um modelo de 70B para 32 mil tokens.

Atualmente, várias empresas de grandes modelos, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma prioridade para suas atualizações. A maioria dessas empresas tem atraído o interesse do mercado de capitais, com tamanhos de financiamento e avaliações bastante consideráveis.

O que significa para uma empresa de grandes modelos se comprometer a quebrar a tecnologia de texto longo e expandir o comprimento do contexto em 100 vezes?

À primeira vista, parece haver um aumento no comprimento do texto de entrada e na capacidade de leitura. Desde o início, quando só conseguia ler um texto curto, até agora, que consigo ler um livro inteiro.

A um nível mais profundo, a tecnologia de texto longo também está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, justiça e investigação científica. As capacidades de resumo de documentos longos, compreensão de leitura e perguntas e respostas são a base da modernização inteligente nestas áreas.

No entanto, o comprimento do texto não significa que quanto mais longo, melhor. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não está diretamente relacionado a uma melhoria de desempenho. O mais importante é a utilização que o modelo faz do conteúdo do contexto.

No entanto, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda está longe de atingir o limite. As empresas de grandes modelos continuam a quebrar barreiras, e 400 mil tokens podem ser apenas o começo.

Por que "enrolar" textos longos?

O fundador de uma grande empresa de modelos declarou que, devido à limitação do comprimento de entrada, muitos aplicativos de grandes modelos enfrentam dificuldades para se concretizarem. Esta é também a razão pela qual muitas empresas estão atualmente focadas em tecnologias de texto longo.

Por exemplo, em cenários como personagens virtuais, desenvolvimento de jogos e análise em áreas profissionais, um comprimento de entrada insuficiente pode causar vários problemas. E no futuro, nas aplicações nativas de Agent e AI, textos longos também desempenham um papel importante.

A tecnologia de texto longo pode resolver alguns dos problemas que os grandes modelos enfrentaram no início, aprimorar certas funcionalidades e também é uma tecnologia chave para avançar na implementação da indústria e das aplicações. Isso também indica que os grandes modelos gerais entraram em uma nova fase, de LLM para Long LLM.

Através do novo chatbot lançado por uma determinada empresa, podemos vislumbrar as funcionalidades de atualização do grande modelo da fase Long LLM:

  • Extração, resumo e análise de informações de texto super longas
  • Texto convertido diretamente em código
  • Interpretação de papéis em diálogos longos

Estes exemplos mostram que os chatbots estão a evoluir para direcções de especialização, personalização e profundidade, o que pode ser uma nova alavanca para a implementação da indústria.

O fundador de uma certa empresa acredita que o mercado de grandes modelos na China se dividirá em dois campos: toB e toC, e que no campo toC aparecerão superaplicações baseadas em modelos desenvolvidos internamente.

No entanto, atualmente há espaço para otimização em cenários de diálogo de longo texto, como conexão à rede, pausa para edição, redução de erros, entre outros.

O dilema do "triângulo impossível" em textos longos

A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" da duração do texto, atenção e poder computacional:

  • Quanto mais longo o texto, mais difícil é focar a atenção.
  • Atenção limitada, textos curtos tornam difícil interpretar informações complexas.
  • Processar textos longos requer uma grande quantidade de poder computacional, aumentando os custos

Isto deve-se principalmente ao fato de que a maioria dos modelos é baseada na estrutura Transformer. O volume de cálculo do mecanismo de autoatenção cresce em quadrado com o comprimento do contexto.

Isto constitui uma contradição entre o comprimento do texto e a atenção. Ao mesmo tempo, para ultrapassar textos mais longos, são necessários mais recursos computacionais, o que cria uma contradição entre o comprimento do texto e a capacidade computacional.

Atualmente, existem três soluções principais:

  1. Usar ferramentas externas para auxiliar no processamento de textos longos
  2. Otimizar o cálculo do mecanismo de autoatenção
  3. Métodos gerais de otimização de modelos

O dilema do "triângulo impossível" do texto longo está temporariamente sem solução, mas esclareceu o caminho a explorar: buscar um equilíbrio entre os três, de modo a lidar com informações suficientes, enquanto se leva em conta o cálculo de atenção e o custo computacional.

TOKEN6.41%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 9
  • Compartilhar
Comentário
0/400
SerumSquirrelvip
· 07-25 12:12
Mesmo mais memória não é suficiente.
Ver originalResponder0
Ser_Liquidatedvip
· 07-25 12:10
Relações de dependência difíceis de lidar.
Ver originalResponder0
BackrowObservervip
· 07-25 09:42
Corri dez mil tokens e fiquei preso. Ainda tem coragem de se gabar.
Ver originalResponder0
StableGeniusDegenvip
· 07-23 23:41
Mineração queima placas de vídeo, ah essa coisa
Ver originalResponder0
consensus_whisperervip
· 07-22 12:57
400 mil tokens? Já estão a queimar dinheiro novamente.
Ver originalResponder0
RugResistantvip
· 07-22 12:57
Peixe que não se integra

Linguagem do conteúdo: Chinês

Aqui estão os comentários sobre o artigo:

Não dá para culpar ninguém, só podemos dificultar a vida da placa gráfica~
Ver originalResponder0
SilentAlphavip
· 07-22 12:49
Tsk tsk, está cada vez mais inflacionado, Grandes investidores queimando dinheiro em ferro.
Ver originalResponder0
gas_guzzlervip
· 07-22 12:39
Este poder de computação quer lidar com tanto assim? Estás a brincar?
Ver originalResponder0
ImpermanentLossFanvip
· 07-22 12:37
Devagar, deite-se e leia textos longos.
Ver originalResponder0
Ver projetos
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)