Kemampuan teks panjang model besar terobosan: dari 4000 token hingga lompatan 400.000 token

robot
Pembuatan abstrak sedang berlangsung

Peningkatan Kemampuan Teks Panjang Model Besar: Dari LLM ke Era Long LLM

Teknologi model besar sedang berkembang dengan kecepatan menakjubkan, kemampuan pemrosesan teks meloncat dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi produsen model besar.

Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-4 menjadi 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks model Claude menjadi 100.000 token. LongLLaMA telah memperluas panjang konteksnya hingga 256.000 token bahkan lebih.

Di dalam negeri, produk asisten cerdas yang diluncurkan oleh sebuah perusahaan rintisan model besar dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Tim penelitian dari Chinese University of Hong Kong mengembangkan teknologi LongLoRA yang dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.

Saat ini, telah ada sejumlah perusahaan model besar terkemuka di dalam dan luar negeri yang menjadikan perpanjangan panjang konteks sebagai fokus pembaruan. Sebagian besar perusahaan ini telah menarik perhatian pasar modal, dengan skala pendanaan dan valuasi yang sangat mengesankan.

Perusahaan model besar berusaha untuk memecahkan teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali?

Secara superficial, ini adalah peningkatan panjang teks yang diinput dan kemampuan membaca. Dari awal hanya bisa menyelesaikan sebuah artikel pendek, hingga sekarang bisa membaca seluruh buku panjang.

Lebih dalam, teknologi teks panjang juga mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah dasar dari peningkatan kecerdasan di bidang-bidang ini.

Namun, panjang teks tidak selalu berarti lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan hasil. Yang lebih penting adalah bagaimana model menggunakan konten konteks.

Namun, saat ini eksplorasi panjang teks di dalam dan luar negeri masih jauh dari batas maksimum. Perusahaan model besar masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.

Mengapa harus "menggulung" teks panjang?

Pendiri sebuah perusahaan model besar menyatakan bahwa keterbatasan panjang input menyebabkan banyak tantangan dalam aplikasi model besar. Ini juga menjadi alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.

Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis di bidang profesional, panjang input yang tidak memadai dapat menyebabkan berbagai masalah. Sementara itu, dalam aplikasi asli Agent dan AI di masa depan, teks panjang juga memainkan peran penting.

Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah yang menjadi sorotan awal model besar, meningkatkan beberapa fungsinya, tetapi juga merupakan teknologi kunci untuk mendorong lebih lanjut penerapan industri dan aplikasi. Ini juga menunjukkan bahwa model besar umum telah memasuki fase baru dari LLM ke Long LLM.

Melalui robot percakapan baru yang diluncurkan oleh perusahaan tertentu, kita dapat melihat peningkatan fungsionalitas model besar di tahap Long LLM:

  • Ekstraksi, ringkasan, dan analisis informasi teks yang sangat panjang
  • Teks langsung diubah menjadi kode
  • Peran dalam percakapan panjang

Contoh-contoh ini menunjukkan bahwa robot percakapan sedang berkembang ke arah profesionalisasi, personalisasi, dan pendalaman, yang mungkin menjadi alat baru untuk mendorong implementasi industri.

Pendiri suatu perusahaan percaya bahwa pasar model besar di dalam negeri akan dibagi menjadi dua kubu, yaitu toB dan toC, di mana akan muncul aplikasi super yang didasarkan pada model yang dikembangkan sendiri di bidang toC.

Namun, saat ini masih ada ruang untuk optimasi dalam skenario percakapan teks panjang, seperti koneksi, penundaan modifikasi, pengurangan kesalahan, dan sebagainya.

Dilema "Segitiga Tidak Mungkin" dari Teks Panjang

Teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" dari panjang teks, perhatian, dan daya komputasi:

  • Semakin panjang teks, semakin sulit untuk memfokuskan perhatian
  • Perhatian terbatas, teks pendek sulit untuk sepenuhnya memahami informasi kompleks
  • Memproses teks panjang memerlukan banyak daya komputasi, meningkatkan biaya

Ini terutama disebabkan oleh sebagian besar model yang didasarkan pada struktur Transformer. Di mana jumlah komputasi mekanisme perhatian mandiri meningkat secara kuadrat seiring dengan panjang konteks.

Ini membentuk kontradiksi antara panjang teks dan perhatian. Pada saat yang sama, untuk melampaui teks yang lebih panjang juga membutuhkan lebih banyak daya komputasi, yang membentuk kontradiksi antara panjang teks dan daya komputasi.

Saat ini ada tiga solusi utama:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang
  2. Mengoptimalkan perhitungan mekanisme perhatian diri
  3. Metode umum untuk memanfaatkan optimasi model

Dilema "segitiga yang tidak mungkin" dari teks panjang sementara tidak terpecahkan, tetapi telah menetapkan jalur eksplorasi: mencari keseimbangan di antara ketiganya, yang dapat menangani cukup informasi, sambil memperhatikan perhitungan perhatian dan biaya komputasi.

TOKEN3.09%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 9
  • Bagikan
Komentar
0/400
SerumSquirrelvip
· 07-25 12:12
Masih tidak cukup meskipun ada lebih banyak memori.
Lihat AsliBalas0
Ser_Liquidatedvip
· 07-25 12:10
Hubungan kompromi yang sulit diatasi.
Lihat AsliBalas0
BackrowObservervip
· 07-25 09:42
Berlari sepuluh ribu token terhenti, masih berani bercanda.
Lihat AsliBalas0
StableGeniusDegenvip
· 07-23 23:41
Penambangan membakar kartu grafis, ya ini.
Lihat AsliBalas0
consensus_whisperervip
· 07-22 12:57
400 ribu token? Lagi-lagi membakar uang
Lihat AsliBalas0
RugResistantvip
· 07-22 12:57
Ikan yang tidak bisa masuk

Bahasa konten: Mandarin

Berikut adalah komentar tentang artikel tersebut:

Tidak bisa disalahkan siapa-siapa, hanya bisa menyusahkan kartu grafis~
Lihat AsliBalas0
SilentAlphavip
· 07-22 12:49
Tsk tsk semakin membesar, Investor Luas yang membakar uang.
Lihat AsliBalas0
gas_guzzlervip
· 07-22 12:39
Daya Komputasi ini ingin memproses sepanjang ini? Main-main?
Lihat AsliBalas0
ImpermanentLossFanvip
· 07-22 12:37
Santai dan lihat artikel panjang.
Lihat AsliBalas0
Lihat Lebih Banyak
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)