大模型長文本能力突破:從4000 token到40萬 token的飛躍

robot
摘要生成中

大模型長文本能力提升:從LLM到Long LLM時代

大模型技術正在以驚人的速度發展,文本處理能力從4000 token躍升至40萬token。長文本能力似乎成爲大模型廠商的新標配。

國外方面,OpenAI通過多次升級將GPT-4的上下文長度提升至3.2萬token。Anthropic更是將其模型Claude的上下文長度一舉提升至10萬token。LongLLaMA更是將上下文長度擴展到25.6萬token甚至更多。

國內方面,某大模型初創公司推出的智能助手產品可支持輸入20萬漢字,約合40萬token。港中文一個研究團隊開發的LongLoRA技術可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。

目前,國內外已有一批頂級大模型公司將拓展上下文長度作爲更新升級的重點。這些公司大多獲得了資本市場的青睞,融資規模和估值都十分可觀。

大模型公司致力於突破長文本技術,將上下文長度擴大100倍意味着什麼?

表面上看是輸入文本長度和閱讀能力的提升。從最初只能讀完一篇短文,到現在可以閱讀整本長篇巨著。

更深層次來看,長文本技術也在推動大模型在金融、司法、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力是這些領域智能化升級的基礎。

然而,文本長度並不是越長越好。研究表明,模型支持更長上下文輸入與效果提升並不能直接劃等號。更重要的是模型對上下文內容的使用。

不過,目前國內外對文本長度的探索還遠未達到極限。大模型公司仍在不斷突破,40萬token可能只是一個開始。

爲什麼要"卷"長文本?

某大模型公司創始人表示,正是由於輸入長度受限,造成了許多大模型應用落地的困境。這也是衆多公司當前聚焦長文本技術的原因。

例如在虛擬角色、遊戲開發、專業領域分析等場景中,輸入長度不足會導致各種問題。而在未來的Agent和AI原生應用中,長文本同樣扮演着重要角色。

長文本技術既可以解決大模型早期被詬病的一些問題,增強某些功能,同時也是進一步推進產業和應用落地的關鍵技術。這也表明通用大模型已進入從LLM到Long LLM的新階段。

通過某公司新發布的對話機器人,我們可以窺見Long LLM階段大模型的升級功能:

  • 超長文本信息提取、總結和分析
  • 文字直接轉化爲代碼
  • 長對話中的角色扮演

這些例子說明,對話機器人正朝着專業化、個性化、深度化方向發展,這或許是撬動產業落地的新抓手。

某公司創始人認爲,國內大模型市場會分爲toB和toC兩個陣營,在toC領域會出現基於自研模型的超級應用。

不過,目前長文本對話場景仍有優化空間,如聯網、暫停修改、減少錯誤等方面。

長文本的"不可能三角"困境

長文本技術面臨文本長短、注意力和算力的"不可能三角"困境:

  • 文本越長,越難聚焦注意力
  • 注意力受限,短文本難以完整解讀復雜信息
  • 處理長文本需要大量算力,提高成本

這主要源於大多數模型基於Transformer結構。其中自注意力機制的計算量隨上下文長度呈平方增長。

這構成了文本長短與注意力的矛盾。同時,要突破更長文本又需要更多算力,形成了文本長短與算力的矛盾。

目前主要有三種解決方案:

  1. 借助外部工具輔助處理長文本
  2. 優化自注意力機制計算
  3. 利用模型優化的一般方法

長文本的"不可能三角"困境暫時無解,但明確了探索路徑:在三者間尋求平衡,既能處理足夠信息,又能兼顧注意力計算與算力成本。

TOKEN-5.66%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 9
  • 分享
留言
0/400
SerumSquirrelvip
· 07-25 12:12
再多内存也不够用咯
回復0
Ser_Liquidatedvip
· 07-25 12:10
难搞的依赖折中关系啊
回復0
后排吃瓜哥vip
· 07-25 09:42
跑一万token都卡住了 还有脸吹
回復0
StableGeniusDegenvip
· 07-23 23:41
挖矿烧显卡啊这玩意
回復0
consensus_whisperervip
· 07-22 12:57
40万token?又烧钱了
回復0
Rug_Resistantvip
· 07-22 12:57
融入不进去的鱼

内容语言:中文

以下是对文章的评论:

怪不了谁,只能难为显卡了~
回復0
Alpha不开口vip
· 07-22 12:49
啧啧 越搞越膨胀了 铁烧钱大户
回復0
gas_guzzlervip
· 07-22 12:39
这点算力就想处理这么长?玩呢?
回復0
无常损失爱好者vip
· 07-22 12:37
慢慢躺平看长文了
回復0
查看更多
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)