قدرة النموذج الكبير على معالجة النصوص الطويلة: قفزة من 4000 توكن إلى 400000 توكن

robot
إنشاء الملخص قيد التقدم

تحسين قدرة النماذج الكبيرة على معالجة النصوص الطويلة: من LLM إلى عصر Long LLM

تقنية النماذج الكبيرة تتطور بسرعة مذهلة، حيث ارتفعت قدرة معالجة النصوص من 4000 توكن إلى 400000 توكن. يبدو أن قدرة التعامل مع النصوص الطويلة أصبحت المعيار الجديد لمصنعي النماذج الكبيرة.

في الخارج، قامت OpenAI من خلال عدة ترقيات بزيادة طول السياق لـ GPT-4 إلى 32000 توكن. بينما زادت Anthropic طول السياق لنموذج Claude إلى 100000 توكن دفعة واحدة. كما وسعت LongLLaMA طول السياق إلى 256000 توكن أو حتى أكثر.

في البلاد، أطلق شركة ناشئة نموذجية منتج مساعد ذكي يدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. طور فريق بحث من جامعة هونغ كونغ الصينية تقنية LongLoRA التي يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.

حاليًا، هناك مجموعة من شركات النماذج الكبيرة الرائدة محليًا ودوليًا التي تركز على توسيع طول السياق كأحد أولويات التحديث والترقية. وقد حصلت معظم هذه الشركات على استحسان سوق رأس المال، حيث أن حجم التمويل والتقييمات مرتفعة جدًا.

ما معنى أن تكرّس شركات النماذج الكبيرة جهودها لتجاوز تقنيات النصوص الطويلة وزيادة طول السياق بمقدار 100 مرة؟

يبدو من السطح أن هناك تحسينًا في طول نص الإدخال وقدرة القراءة. من القدرة على قراءة مقال قصير فقط في البداية، إلى القدرة الآن على قراءة كتاب كامل طويل.

من منظور أعمق، تعمل تقنية النصوص الطويلة أيضًا على دفع تطبيقات النماذج الكبيرة في مجالات التخصص مثل المالية والعدالة والبحث العلمي. تلعب القدرات مثل تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة دورًا أساسيًا في ترقية الذكاء في هذه المجالات.

ومع ذلك، فإن طول النص ليس دائماً أفضل. تشير الدراسات إلى أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين النتائج. الأهم هو كيفية استخدام النموذج لمحتوى السياق.

ومع ذلك، لا يزال الاستكشاف المحلي والدولي لطول النص بعيدًا عن الوصول إلى الحدود القصوى. لا تزال شركات النماذج الكبيرة تحقق اختراقات مستمرة، وقد تكون 400000 توكن مجرد بداية.

لماذا يجب "التدوير" النص الطويل؟

قال مؤسس إحدى شركات النماذج الكبيرة إن القيود المفروضة على طول الإدخال هي السبب وراء العديد من التحديات التي تواجه تطبيقات النماذج الكبيرة. وهذا هو السبب أيضًا وراء تركيز العديد من الشركات حاليًا على تقنية النصوص الطويلة.

على سبيل المثال، في سيناريوهات مثل الشخصيات الافتراضية، تطوير الألعاب، وتحليل المجالات المهنية، قد يؤدي طول المدخلات غير الكافي إلى مشاكل متنوعة. وفي التطبيقات الأصلية للوكيل والذكاء الاصطناعي في المستقبل، تلعب النصوص الطويلة أيضًا دورًا مهمًا.

تكنولوجيا النصوص الطويلة يمكن أن تحل بعض المشكلات التي تم انتقاد النماذج الكبيرة بسببها في وقت مبكر، وتعزز بعض الوظائف، وهي أيضًا تكنولوجيا رئيسية لدفع الصناعة والتطبيقات نحو التنفيذ. وهذا يشير أيضًا إلى أن النماذج العامة الكبيرة قد دخلت مرحلة جديدة من LLM إلى Long LLM.

من خلال روبوت المحادثة الجديد الذي أطلقته إحدى الشركات، يمكننا إلقاء نظرة على ميزات الترقية لنموذج Long LLM.

  • استخراج، تلخيص وتحليل معلومات النصوص الطويلة جداً
  • تحويل النص مباشرة إلى كود
  • تمثيل الأدوار في المحادثات الطويلة

توضح هذه الأمثلة أن روبوتات المحادثة تتطور نحو الاحترافية والشخصية والعمق، وربما يكون هذا هو العامل الجديد الذي يمكن أن يحرك الصناعة نحو التنفيذ.

يعتقد مؤسس إحدى الشركات أن سوق النماذج الكبيرة في البلاد سينقسم إلى معسكرين، toB و toC، وسيظهر في مجال toC تطبيقات فائقة تعتمد على نماذج تم تطويرها داخليًا.

ومع ذلك، لا يزال هناك مجال لتحسين سيناريوهات الحوار الطويلة، مثل الاتصال، وإيقاف التعديل، وتقليل الأخطاء، وما إلى ذلك.

مأزق "مثلث المستحيل" للنصوص الطويلة

تواجه تقنية النصوص الطويلة مأزق "مثلث الاستحالة" من حيث طول النصوص والتركيز والقدرة الحاسوبية:

  • كلما كان النص أطول، كان من الصعب التركيز على الانتباه
  • انتباه محدود، النصوص القصيرة يصعب فهم المعلومات المعقدة بشكل كامل
  • معالجة النصوص الطويلة تتطلب قوة حسابية كبيرة، مما يزيد من التكاليف

هذا يعود أساسًا إلى أن معظم النماذج تستند إلى هيكل Transformer. حيث تزداد كمية حساب آلية الانتباه الذاتي بشكل متزايد مع طول السياق.

هذا يشكل تناقضًا بين طول النص والانتباه. في الوقت نفسه، يتطلب كسر النصوص الأطول المزيد من قوة الحوسبة، مما يشكل تناقضًا بين طول النص وقوة الحوسبة.

حالياً هناك ثلاث حلول رئيسية:

  1. الاستعانة بأدوات خارجية لمساعدة في معالجة النصوص الطويلة
  2. تحسين حساب آلية الانتباه الذاتي
  3. الطرق العامة لتحسين النماذج

تظل "مثلث المستحيل" في النص الطويل دون حل مؤقت، ولكن تم توضيح مسار الاستكشاف: البحث عن توازن بين الثلاثة، بحيث يمكن معالجة معلومات كافية، مع مراعاة حساب الانتباه وتكاليف القوة الحسابية.

TOKEN3.87%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 9
  • إعادة النشر
  • مشاركة
تعليق
0/400
SerumSquirrelvip
· 07-25 12:12
حتى المزيد من الذاكرة لن تكون كافية
شاهد النسخة الأصليةرد0
Ser_Liquidatedvip
· 07-25 12:10
علاقة وسطى مع الاعتماد الصعب
شاهد النسخة الأصليةرد0
BackrowObservervip
· 07-25 09:42
توقفت عن تشغيل عشرة آلاف توكن، ولا يزال لديه وجه للحديث.
شاهد النسخة الأصليةرد0
StableGeniusDegenvip
· 07-23 23:41
التعدين يحرق بطاقة الرسوميات، هذا الشيء
شاهد النسخة الأصليةرد0
consensus_whisperervip
· 07-22 12:57
400 ألف توكن؟ لقد أحرقت الأموال مرة أخرى
شاهد النسخة الأصليةرد0
RugResistantvip
· 07-22 12:57
سمكة لا تستطيع الاندماج

لغة المحتوى: الصينية

إليك تعليقات على المقال:

لا يمكن لوم أحد، فقط يمكن أن تكون البطاقة الرسومية في مأزق~
شاهد النسخة الأصليةرد0
SilentAlphavip
· 07-22 12:49
啧啧 越搞越膨胀了 铁烧钱 مستثمرين كبار
شاهد النسخة الأصليةرد0
gas_guzzlervip
· 07-22 12:39
هذه القوة الحوسبة تريد معالجة كل هذه المدة؟ هل تمزح؟
شاهد النسخة الأصليةرد0
ImpermanentLossFanvip
· 07-22 12:37
استلقِ ببطء واقرأ النص الطويل
شاهد النسخة الأصليةرد0
عرض المزيد
  • تثبيت