大規模モデルの長文能力の突破:4000トークンから40万トークンへの飛躍

robot
概要作成中

大規模モデルのロングテキスト機能の改善:LLMからロングLLM時代へ

大規模モデル技術は驚異的な速度で進化しており、テキスト処理能力は4000トークンから40万トークンに飛躍しています。長文処理能力は、大規模モデルの提供者にとって新たな標準となっているようです。

海外では、OpenAIが複数回のアップグレードを通じてGPT-4のコンテキスト長を3.2万トークンに引き上げました。AnthropicはそのモデルClaudeのコンテキスト長を一気に10万トークンにまで引き上げました。LongLLaMAはコンテキスト長を25.6万トークン以上に拡張しています。

国内方面、ある大規模モデルのスタートアップが発売したスマートアシスタント製品は、20万の漢字の入力をサポートし、約40万トークンに相当します。香港中文大学の研究チームが開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルは3.2万トークンに拡張します。

現在、国内外の一部のトップモデル企業が文脈の長さの拡張を更新の重点としている。これらの企業はほとんどが資本市場の支持を受け、資金調達規模と評価は非常に注目に値する。

大規模モデル会社は長文技術の突破に努めており、文脈の長さを100倍に拡大することは何を意味するのでしょうか?

表面上は、入力テキストの長さと読解能力の向上に見える。最初は短い文章しか読めなかったが、今では長編の大作を読むことができる。

より深い視点から見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの適用を推進しています。長文書の要約、読解、質問応答などの能力は、これらの分野の知能化のアップグレードの基盤となっています。

しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、モデルがより長い文脈入力をサポートすることと効果の向上は直接的な等号ではありません。より重要なのは、モデルが文脈内容をどのように利用するかです。

しかし、現在国内外のテキスト長の探求はまだ限界に達していません。大規模モデル企業は引き続き突破を続けており、40万トークンは単なるスタートに過ぎない可能性があります。

なぜ"巻"長文を?

ある大規模モデル会社の創業者は、入力の長さが制限されているため、多くの大規模モデルアプリケーションの実現に困難をもたらしていると述べました。これが多くの会社が現在、長文技術に焦点を当てている理由でもあります。

例えば、仮想キャラクター、ゲーム開発、専門分野分析などのシーンにおいて、入力の長さが不足するとさまざまな問題が発生します。そして、将来のエージェントとAIネイティブアプリケーションにおいても、長文は同様に重要な役割を果たします。

長文技術は、大規模モデルが初期に批判されていたいくつかの問題を解決し、特定の機能を強化することができるだけでなく、産業と応用の実現をさらに推進するための重要な技術でもあります。これにより、汎用大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。

ある企業が新たに発表した対話型ロボットを通じて、Long LLM段階の大規模モデルのアップグレード機能を垣間見ることができます:

  • 超長文テキスト情報の抽出・要約・分析
  • テキストを直接コードに変換
  • 長い対話の中でのロールプレイ

これらの例は、対話型ロボットが専門化、個性化、深化の方向に進んでいることを示しており、これは産業の現場への導入を促進する新しい手段かもしれません。

ある企業の創業者は、国内の大規模モデル市場がtoBとtoCの二つの陣営に分かれ、toC分野では自社開発モデルに基づくスーパーアプリケーションが登場するだろうと考えています。

ただし、現在の長文対話シーンには、ネットワーク接続、編集の一時停止、エラーの削減などの面で改善の余地があります。

長文の"不可能な三角形"のジレンマ

長文テクノロジーは、テキストの長さ、注意力、計算能力の「不可能の三角形」というジレンマに直面しています:

  • テキストが長くなるほど、注意を集中させるのが難しくなる
  • 注意力が制限されているため、短いテキストでは複雑な情報を完全に解読することが難しい
  • 長文の処理には大量の計算力が必要で、コストが上がります。

これは主にほとんどのモデルがTransformer構造に基づいていることに起因しています。その中で自己注意機構の計算量は文脈の長さに対して平方的に増加します。

これは、テキストの長さと注意力の矛盾を構成しています。同時に、より長いテキストを突破するためには、より多くの計算力が必要であり、テキストの長さと計算力の矛盾を形成します。

現在、主に3つの解決策があります:

  1. 外部ツールを利用して長文を処理する 2.セルフアテンションメカニズムの計算を最適化します
  2. モデル最適化の一般的な方法

長文の「不可能三角」ジレンマは一時的に解決策が見つかりませんが、探索の道筋は明確になりました: 三者の間でバランスを求め、十分な情報を処理しつつ、注意計算と計算コストも考慮することです。

TOKEN-4.84%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 9
  • 共有
コメント
0/400
SerumSquirrelvip
· 07-25 12:12
いくらメモリがあっても足りないですね
原文表示返信0
Ser_Liquidatedvip
· 07-25 12:10
難しい依存関係の妥協ですね
原文表示返信0
BackrowObservervip
· 07-25 09:42
1万トークン走っても止まってしまった。まだ自慢するつもり?
原文表示返信0
StableGeniusDegenvip
· 07-23 23:41
マイニングはグラフィックカードを使って行うものだね
原文表示返信0
consensus_whisperervip
· 07-22 12:57
40万トークン?またお金を燃やしたのか
原文表示返信0
RugResistantvip
· 07-22 12:57
溶け込めない魚

内容言語:日本語

以下は記事に対するコメントです:

誰も責められない、ただグラフィックカードに難儀させるしかない~
原文表示返信0
SilentAlphavip
· 07-22 12:49
啧啧 どんどん膨れ上がっている 鉄が金を焼く大口投資家
原文表示返信0
gas_guzzlervip
· 07-22 12:39
このコンピューティングパワーでこんなに長いのを処理しようって?遊んでるの?
原文表示返信0
ImpermanentLossFanvip
· 07-22 12:37
ゆっくりと横になって長文を読むようになった
原文表示返信0
もっと見る
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)