Peningkatan Kemampuan Teks Panjang Model Besar: Dari LLM ke Era Long LLM
Teknologi model besar sedang berkembang dengan kecepatan menakjubkan, kemampuan pemrosesan teks meloncat dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi produsen model besar.
Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-4 menjadi 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks model Claude menjadi 100.000 token. LongLLaMA telah memperluas panjang konteksnya hingga 256.000 token bahkan lebih.
Di dalam negeri, produk asisten cerdas yang diluncurkan oleh sebuah perusahaan rintisan model besar dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Tim penelitian dari Chinese University of Hong Kong mengembangkan teknologi LongLoRA yang dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.
Saat ini, telah ada sejumlah perusahaan model besar terkemuka di dalam dan luar negeri yang menjadikan perpanjangan panjang konteks sebagai fokus pembaruan. Sebagian besar perusahaan ini telah menarik perhatian pasar modal, dengan skala pendanaan dan valuasi yang sangat mengesankan.
Perusahaan model besar berusaha untuk memecahkan teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali?
Secara superficial, ini adalah peningkatan panjang teks yang diinput dan kemampuan membaca. Dari awal hanya bisa menyelesaikan sebuah artikel pendek, hingga sekarang bisa membaca seluruh buku panjang.
Lebih dalam, teknologi teks panjang juga mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah dasar dari peningkatan kecerdasan di bidang-bidang ini.
Namun, panjang teks tidak selalu berarti lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan hasil. Yang lebih penting adalah bagaimana model menggunakan konten konteks.
Namun, saat ini eksplorasi panjang teks di dalam dan luar negeri masih jauh dari batas maksimum. Perusahaan model besar masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.
Mengapa harus "menggulung" teks panjang?
Pendiri sebuah perusahaan model besar menyatakan bahwa keterbatasan panjang input menyebabkan banyak tantangan dalam aplikasi model besar. Ini juga menjadi alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis di bidang profesional, panjang input yang tidak memadai dapat menyebabkan berbagai masalah. Sementara itu, dalam aplikasi asli Agent dan AI di masa depan, teks panjang juga memainkan peran penting.
Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah yang menjadi sorotan awal model besar, meningkatkan beberapa fungsinya, tetapi juga merupakan teknologi kunci untuk mendorong lebih lanjut penerapan industri dan aplikasi. Ini juga menunjukkan bahwa model besar umum telah memasuki fase baru dari LLM ke Long LLM.
Melalui robot percakapan baru yang diluncurkan oleh perusahaan tertentu, kita dapat melihat peningkatan fungsionalitas model besar di tahap Long LLM:
Ekstraksi, ringkasan, dan analisis informasi teks yang sangat panjang
Teks langsung diubah menjadi kode
Peran dalam percakapan panjang
Contoh-contoh ini menunjukkan bahwa robot percakapan sedang berkembang ke arah profesionalisasi, personalisasi, dan pendalaman, yang mungkin menjadi alat baru untuk mendorong implementasi industri.
Pendiri suatu perusahaan percaya bahwa pasar model besar di dalam negeri akan dibagi menjadi dua kubu, yaitu toB dan toC, di mana akan muncul aplikasi super yang didasarkan pada model yang dikembangkan sendiri di bidang toC.
Namun, saat ini masih ada ruang untuk optimasi dalam skenario percakapan teks panjang, seperti koneksi, penundaan modifikasi, pengurangan kesalahan, dan sebagainya.
Dilema "Segitiga Tidak Mungkin" dari Teks Panjang
Teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" dari panjang teks, perhatian, dan daya komputasi:
Semakin panjang teks, semakin sulit untuk memfokuskan perhatian
Perhatian terbatas, teks pendek sulit untuk sepenuhnya memahami informasi kompleks
Memproses teks panjang memerlukan banyak daya komputasi, meningkatkan biaya
Ini terutama disebabkan oleh sebagian besar model yang didasarkan pada struktur Transformer. Di mana jumlah komputasi mekanisme perhatian mandiri meningkat secara kuadrat seiring dengan panjang konteks.
Ini membentuk kontradiksi antara panjang teks dan perhatian. Pada saat yang sama, untuk melampaui teks yang lebih panjang juga membutuhkan lebih banyak daya komputasi, yang membentuk kontradiksi antara panjang teks dan daya komputasi.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Metode umum untuk memanfaatkan optimasi model
Dilema "segitiga yang tidak mungkin" dari teks panjang sementara tidak terpecahkan, tetapi telah menetapkan jalur eksplorasi: mencari keseimbangan di antara ketiganya, yang dapat menangani cukup informasi, sambil memperhatikan perhitungan perhatian dan biaya komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
25 Suka
Hadiah
25
9
Bagikan
Komentar
0/400
SerumSquirrel
· 07-25 12:12
Masih tidak cukup meskipun ada lebih banyak memori.
Lihat AsliBalas0
Ser_Liquidated
· 07-25 12:10
Hubungan kompromi yang sulit diatasi.
Lihat AsliBalas0
BackrowObserver
· 07-25 09:42
Berlari sepuluh ribu token terhenti, masih berani bercanda.
Lihat AsliBalas0
StableGeniusDegen
· 07-23 23:41
Penambangan membakar kartu grafis, ya ini.
Lihat AsliBalas0
consensus_whisperer
· 07-22 12:57
400 ribu token? Lagi-lagi membakar uang
Lihat AsliBalas0
RugResistant
· 07-22 12:57
Ikan yang tidak bisa masuk
Bahasa konten: Mandarin
Berikut adalah komentar tentang artikel tersebut:
Tidak bisa disalahkan siapa-siapa, hanya bisa menyusahkan kartu grafis~
Lihat AsliBalas0
SilentAlpha
· 07-22 12:49
Tsk tsk semakin membesar, Investor Luas yang membakar uang.
Lihat AsliBalas0
gas_guzzler
· 07-22 12:39
Daya Komputasi ini ingin memproses sepanjang ini? Main-main?
Kemampuan teks panjang model besar terobosan: dari 4000 token hingga lompatan 400.000 token
Peningkatan Kemampuan Teks Panjang Model Besar: Dari LLM ke Era Long LLM
Teknologi model besar sedang berkembang dengan kecepatan menakjubkan, kemampuan pemrosesan teks meloncat dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi produsen model besar.
Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-4 menjadi 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks model Claude menjadi 100.000 token. LongLLaMA telah memperluas panjang konteksnya hingga 256.000 token bahkan lebih.
Di dalam negeri, produk asisten cerdas yang diluncurkan oleh sebuah perusahaan rintisan model besar dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Tim penelitian dari Chinese University of Hong Kong mengembangkan teknologi LongLoRA yang dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.
Saat ini, telah ada sejumlah perusahaan model besar terkemuka di dalam dan luar negeri yang menjadikan perpanjangan panjang konteks sebagai fokus pembaruan. Sebagian besar perusahaan ini telah menarik perhatian pasar modal, dengan skala pendanaan dan valuasi yang sangat mengesankan.
Perusahaan model besar berusaha untuk memecahkan teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali?
Secara superficial, ini adalah peningkatan panjang teks yang diinput dan kemampuan membaca. Dari awal hanya bisa menyelesaikan sebuah artikel pendek, hingga sekarang bisa membaca seluruh buku panjang.
Lebih dalam, teknologi teks panjang juga mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah dasar dari peningkatan kecerdasan di bidang-bidang ini.
Namun, panjang teks tidak selalu berarti lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan hasil. Yang lebih penting adalah bagaimana model menggunakan konten konteks.
Namun, saat ini eksplorasi panjang teks di dalam dan luar negeri masih jauh dari batas maksimum. Perusahaan model besar masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.
Mengapa harus "menggulung" teks panjang?
Pendiri sebuah perusahaan model besar menyatakan bahwa keterbatasan panjang input menyebabkan banyak tantangan dalam aplikasi model besar. Ini juga menjadi alasan mengapa banyak perusahaan saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis di bidang profesional, panjang input yang tidak memadai dapat menyebabkan berbagai masalah. Sementara itu, dalam aplikasi asli Agent dan AI di masa depan, teks panjang juga memainkan peran penting.
Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah yang menjadi sorotan awal model besar, meningkatkan beberapa fungsinya, tetapi juga merupakan teknologi kunci untuk mendorong lebih lanjut penerapan industri dan aplikasi. Ini juga menunjukkan bahwa model besar umum telah memasuki fase baru dari LLM ke Long LLM.
Melalui robot percakapan baru yang diluncurkan oleh perusahaan tertentu, kita dapat melihat peningkatan fungsionalitas model besar di tahap Long LLM:
Contoh-contoh ini menunjukkan bahwa robot percakapan sedang berkembang ke arah profesionalisasi, personalisasi, dan pendalaman, yang mungkin menjadi alat baru untuk mendorong implementasi industri.
Pendiri suatu perusahaan percaya bahwa pasar model besar di dalam negeri akan dibagi menjadi dua kubu, yaitu toB dan toC, di mana akan muncul aplikasi super yang didasarkan pada model yang dikembangkan sendiri di bidang toC.
Namun, saat ini masih ada ruang untuk optimasi dalam skenario percakapan teks panjang, seperti koneksi, penundaan modifikasi, pengurangan kesalahan, dan sebagainya.
Dilema "Segitiga Tidak Mungkin" dari Teks Panjang
Teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" dari panjang teks, perhatian, dan daya komputasi:
Ini terutama disebabkan oleh sebagian besar model yang didasarkan pada struktur Transformer. Di mana jumlah komputasi mekanisme perhatian mandiri meningkat secara kuadrat seiring dengan panjang konteks.
Ini membentuk kontradiksi antara panjang teks dan perhatian. Pada saat yang sama, untuk melampaui teks yang lebih panjang juga membutuhkan lebih banyak daya komputasi, yang membentuk kontradiksi antara panjang teks dan daya komputasi.
Saat ini ada tiga solusi utama:
Dilema "segitiga yang tidak mungkin" dari teks panjang sementara tidak terpecahkan, tetapi telah menetapkan jalur eksplorasi: mencari keseimbangan di antara ketiganya, yang dapat menangani cukup informasi, sambil memperhatikan perhitungan perhatian dan biaya komputasi.
Bahasa konten: Mandarin
Berikut adalah komentar tentang artikel tersebut:
Tidak bisa disalahkan siapa-siapa, hanya bisa menyusahkan kartu grafis~