تتنافس النماذج الكبيرة في تطوير تقنية النصوص الطويلة، قد تكون 400000 توكن مجرد بداية
تزيد النماذج الكبيرة بسرعة مذهلة من قدرتها على معالجة النصوص الطويلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يبدو أن القدرة على معالجة النصوص الطويلة أصبحت معيارًا جديدًا لقياس قوة شركات النماذج الكبيرة.
على المستوى الدولي، قامت OpenAI بعدة ترقيات، حيث زادت طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، بينما زادت GPT-4 من 8000 إلى 32000 توكن. أما المنافس الرئيسي لـ OpenAI، Anthropic، فقد قامت بزيادة طول السياق إلى 100000 توكن دفعة واحدة. بينما قامت LongLLaMA بتمديد طول السياق إلى 256000 توكن أو أكثر.
على الصعيد المحلي، أطلقت شركة الناشئة في مجال النماذج الكبيرة "كيمى شات" المدعومة من "مون زهي آن"، والتي تدعم إدخال 200,000 حرف صيني، أي ما يعادل 400,000 توكن. تم تطوير تقنية LongLoRA بالتعاون بين جامعة هونغ كونغ الصينية وMIT، والتي يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، بينما يمكن أن يصل نموذج 70B إلى 32,000 توكن.
في الوقت الحالي، تعتبر العديد من الشركات والمؤسسات البحثية الرائدة في مجال النماذج الكبيرة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، توسيع طول السياق كأحد الاتجاهات الرئيسية للتحديث. كما أن هذه الشركات تحظى أيضًا بشعبية كبيرة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت 月之暗面 تمويلًا يقارب 2 مليار يوان بعد ستة أشهر من تأسيسها.
إذن، لماذا تعطي شركات النماذج الكبيرة أهمية كبيرة لتقنية النصوص الطويلة؟ ماذا يعني توسيع طول السياق بمقدار 100 مرة؟
من الناحية السطحية، يعني هذا أن النموذج يمكنه معالجة نصوص إدخال أطول، ولديه قدرة قراءة أكبر. على سبيل المثال، يمكن لـ GPT-4 الذي يتكون من 32,000 توكن قراءة قصة قصيرة، بينما يمكن لـ Kimi Chat الذي يتكون من 400,000 توكن معالجة رواية طويلة.
من منظور أعمق، فإن تقنية النصوص الطويلة تدفع نماذج الذكاء الاصطناعي الكبيرة لتطبيقها في مجالات متخصصة مثل المالية، والعدالة، والبحث العلمي. في هذه المجالات، تعتبر قدرة تلخيص وفهم النصوص الطويلة والإجابة على الأسئلة أساسية ورئيسية.
ومع ذلك، تظهر الأبحاث أن دعم النموذج لسياقات أطول لا يتساوى مباشرة مع نتائج أفضل. المفتاح هو كيفية استخدام النموذج لمعلومات السياق بشكل فعال. لا يزال استكشاف طول النص في الصناعة بعيدًا عن الوصول إلى الحد الأقصى، وقد تكون 400,000 توكين مجرد بداية.
لماذا يجب تطوير تقنية النصوص الطويلة؟
قال مؤسس "الجانب المظلم من القمر" يانغ زهي لين إن قيود طول الإدخال تسبب صعوبات عديدة في تطبيقات النماذج الكبيرة، وهذا هو السبب وراء تركيز العديد من الشركات الحالية على تقنية النصوص الطويلة.
على سبيل المثال، في مشهد الشخصيات الافتراضية، بسبب عدم كفاية القدرة على معالجة النصوص الطويلة، قد تنسى الشخصيات معلومات مهمة؛ عند تطوير ألعاب القتل السينمائي، يمكن أن يؤدي نقص طول الإدخال إلى تقليص قواعد اللعبة؛ في المجالات التخصصية مثل القانون والمالية، غالبًا ما تتعثر التحليلات العميقة للمحتوى.
تعتبر القدرة على التعامل مع النصوص الطويلة مهمة أيضًا في التطبيقات الأصلية للوكيل والذكاء الاصطناعي في المستقبل. يحتاج الوكيل إلى الاعتماد على المعلومات التاريخية لاتخاذ القرارات، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى السياق للحفاظ على تجربة مستخدم متماسكة.
يعتقد يانغ زليين أن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث ترتبط القدرة على الخطوة الواحدة بكمية المعلمات، بينما يمثل عدد خطوات التنفيذ طول السياق. يمكن للنصوص الطويلة من خلال توفير المزيد من السياق والتفاصيل أن تساعد النموذج في تقييم المعاني بدقة أكبر وتقليل الغموض.
لذلك، فإن تقنية النصوص الطويلة يمكن أن تحل بعض المشكلات المبكرة للنماذج الكبيرة، وهي أيضًا مفتاح لتطبيقات الصناعة. وهذا يمثل علامة على أن تطوير النماذج الكبيرة قد دخل مرحلة جديدة من LLM إلى Long LLM.
عرض Kimi Chat بعض ميزات الترقية في مرحلة Long LLM:
استخراج المعلومات الرئيسية وتلخيصها وتحليلها للنصوص الطويلة جدًا
تحويل النص مباشرةً إلى كود، وإعادة إنتاج عملية توليد الكود في الورقة البحثية
تحقيق الأدوار، والتحدث مع الشخصيات التاريخية أو الشخصيات الافتراضية
تشير هذه الميزات إلى أن الروبوتات الحوارية تتجه نحو التخصص والتخصيص والعمق، وقد تصبح أداة جديدة لتحفيز تطبيقات الصناعة.
يعتقد يانغ زهي لين أن سوق النماذج الكبيرة في البلاد في المستقبل سينقسم إلى معسكرين، toB و toC، ومن المحتمل أن تظهر تطبيقات فائقة تعتمد على نماذج تم تطويرها داخليًا في مجال toC.
ومع ذلك، لا يزال هناك مجال لتحسين المحادثات النصية الطويلة الحالية، مثل عدم دعم بعض المنتجات لتحديث المعلومات عبر الإنترنت، وعدم القدرة على إيقاف التعديل أثناء عملية التوليد، وما زالت هناك مشاكل في إنتاج معلومات غير دقيقة.
معضلة "مثلث المستحيل" للنصوص الطويلة
تواجه التقنية النصية الطويلة "مثلث المستحيل" من حيث طول النص، والانتباه، وقوة الحساب:
كلما طالت النصوص، كان من الصعب التركيز ولفت الانتباه بشكل كامل.
الانتباه محدود، النصوص القصيرة يصعب فهم المعلومات المعقدة بشكل كامل
معالجة النصوص الطويلة تتطلب الكثير من القدرة الحاسوبية، مما يزيد من التكاليف
يعود ذلك أساسًا إلى أن معظم النماذج تعتمد على هيكلية Transformer. حيث أن آلية الانتباه الذاتي فيها تجعل كمية الحسابات تنمو بمعدل تربيعي مع زيادة طول السياق. إذا زاد السياق بمقدار 32 مرة، ستزداد كمية الحسابات بمقدار 1000 مرة.
أظهرت الدراسات أن السياق الطويل للغاية يؤدي إلى انخفاض نسبة المعلومات ذات الصلة، مما يزيد من تشتت الانتباه. وهذا يشكل تناقضًا بين طول النص والانتباه.
نقص القوة الحاسوبية كان دائمًا عاملًا مقيدًا. إن زيادة طول النص تؤدي بلا شك إلى استهلاك المزيد من القوة الحاسوبية، مما يخلق تناقضًا بين طول النص والقوة الحاسوبية.
لذلك، هناك ثلاثة أنواع رئيسية من الحلول في الصناعة:
استخدام أدوات خارجية: تقسيم النصوص الطويلة، من خلال البحث عن مقاطع نصية قصيرة لبناء إجابات نصية طويلة.
تحسين حساب الانتباه الذاتي: مثل تقنية LongLoRA التي تقلل من حجم الحسابات من خلال الحسابات المجمعة.
تحسين النموذج: مثل LongLLaMA، يتم تحقيق الاستقراء لتمديد تسلسلات أطول من خلال التعديل الدقيق، أو من خلال تقليل عدد المعلمات لتحسين طول السياق.
لا يمكن حل "مثلث المستحيل" للنصوص الطويلة تمامًا في الوقت الحالي، لكن هذا يوضح أيضًا اتجاه استكشاف الشركات المصنعة للنماذج الكبيرة: البحث عن التوازن الأمثل بين طول النص، والانتباه، وقوة الحوسبة، لمعالجة معلومات كافية مع مراعاة حساب الانتباه وتكاليف الحوسبة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 21
أعجبني
21
7
مشاركة
تعليق
0/400
just_another_fish
· 07-28 15:40
قوة الحوسبة充足了再说吧~
شاهد النسخة الأصليةرد0
down_only_larry
· 07-28 15:24
搞毛哦 قوة الحوسبة成本又要 ارتفع咯
شاهد النسخة الأصليةرد0
GasWrangler
· 07-28 08:29
تقنيًا، لا يزال دون المستوى الأمثل لمعالجة الإنتاجية في الطبقة الأساسية
شاهد النسخة الأصليةرد0
governance_ghost
· 07-25 22:55
مرة أخرى، ثورة النصوص الطويلة
شاهد النسخة الأصليةرد0
GateUser-5854de8b
· 07-25 22:54
اوي، قوة الحوسبة لا تستطيع مواكبة الأمور، سيتعطل كل شيء.
شاهد النسخة الأصليةرد0
0xLuckbox
· 07-25 22:46
怪不得最近 قوة الحوسبة这么贵
شاهد النسخة الأصليةرد0
OnChain_Detective
· 07-25 22:44
نمط sus تم اكتشافه... منحنى تكلفة الحساب هذا يحتاج إلى تحليل مخاطر جاد بصراحة
تم تعزيز قدرة النموذج الكبير على معالجة النصوص الطويلة إلى 400,000 توكن، مما يعكس إمكانيات تطبيق هائلة في الصناعة.
تتنافس النماذج الكبيرة في تطوير تقنية النصوص الطويلة، قد تكون 400000 توكن مجرد بداية
تزيد النماذج الكبيرة بسرعة مذهلة من قدرتها على معالجة النصوص الطويلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يبدو أن القدرة على معالجة النصوص الطويلة أصبحت معيارًا جديدًا لقياس قوة شركات النماذج الكبيرة.
على المستوى الدولي، قامت OpenAI بعدة ترقيات، حيث زادت طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، بينما زادت GPT-4 من 8000 إلى 32000 توكن. أما المنافس الرئيسي لـ OpenAI، Anthropic، فقد قامت بزيادة طول السياق إلى 100000 توكن دفعة واحدة. بينما قامت LongLLaMA بتمديد طول السياق إلى 256000 توكن أو أكثر.
على الصعيد المحلي، أطلقت شركة الناشئة في مجال النماذج الكبيرة "كيمى شات" المدعومة من "مون زهي آن"، والتي تدعم إدخال 200,000 حرف صيني، أي ما يعادل 400,000 توكن. تم تطوير تقنية LongLoRA بالتعاون بين جامعة هونغ كونغ الصينية وMIT، والتي يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، بينما يمكن أن يصل نموذج 70B إلى 32,000 توكن.
في الوقت الحالي، تعتبر العديد من الشركات والمؤسسات البحثية الرائدة في مجال النماذج الكبيرة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، توسيع طول السياق كأحد الاتجاهات الرئيسية للتحديث. كما أن هذه الشركات تحظى أيضًا بشعبية كبيرة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت 月之暗面 تمويلًا يقارب 2 مليار يوان بعد ستة أشهر من تأسيسها.
إذن، لماذا تعطي شركات النماذج الكبيرة أهمية كبيرة لتقنية النصوص الطويلة؟ ماذا يعني توسيع طول السياق بمقدار 100 مرة؟
من الناحية السطحية، يعني هذا أن النموذج يمكنه معالجة نصوص إدخال أطول، ولديه قدرة قراءة أكبر. على سبيل المثال، يمكن لـ GPT-4 الذي يتكون من 32,000 توكن قراءة قصة قصيرة، بينما يمكن لـ Kimi Chat الذي يتكون من 400,000 توكن معالجة رواية طويلة.
من منظور أعمق، فإن تقنية النصوص الطويلة تدفع نماذج الذكاء الاصطناعي الكبيرة لتطبيقها في مجالات متخصصة مثل المالية، والعدالة، والبحث العلمي. في هذه المجالات، تعتبر قدرة تلخيص وفهم النصوص الطويلة والإجابة على الأسئلة أساسية ورئيسية.
ومع ذلك، تظهر الأبحاث أن دعم النموذج لسياقات أطول لا يتساوى مباشرة مع نتائج أفضل. المفتاح هو كيفية استخدام النموذج لمعلومات السياق بشكل فعال. لا يزال استكشاف طول النص في الصناعة بعيدًا عن الوصول إلى الحد الأقصى، وقد تكون 400,000 توكين مجرد بداية.
لماذا يجب تطوير تقنية النصوص الطويلة؟
قال مؤسس "الجانب المظلم من القمر" يانغ زهي لين إن قيود طول الإدخال تسبب صعوبات عديدة في تطبيقات النماذج الكبيرة، وهذا هو السبب وراء تركيز العديد من الشركات الحالية على تقنية النصوص الطويلة.
على سبيل المثال، في مشهد الشخصيات الافتراضية، بسبب عدم كفاية القدرة على معالجة النصوص الطويلة، قد تنسى الشخصيات معلومات مهمة؛ عند تطوير ألعاب القتل السينمائي، يمكن أن يؤدي نقص طول الإدخال إلى تقليص قواعد اللعبة؛ في المجالات التخصصية مثل القانون والمالية، غالبًا ما تتعثر التحليلات العميقة للمحتوى.
تعتبر القدرة على التعامل مع النصوص الطويلة مهمة أيضًا في التطبيقات الأصلية للوكيل والذكاء الاصطناعي في المستقبل. يحتاج الوكيل إلى الاعتماد على المعلومات التاريخية لاتخاذ القرارات، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى السياق للحفاظ على تجربة مستخدم متماسكة.
يعتقد يانغ زليين أن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث ترتبط القدرة على الخطوة الواحدة بكمية المعلمات، بينما يمثل عدد خطوات التنفيذ طول السياق. يمكن للنصوص الطويلة من خلال توفير المزيد من السياق والتفاصيل أن تساعد النموذج في تقييم المعاني بدقة أكبر وتقليل الغموض.
لذلك، فإن تقنية النصوص الطويلة يمكن أن تحل بعض المشكلات المبكرة للنماذج الكبيرة، وهي أيضًا مفتاح لتطبيقات الصناعة. وهذا يمثل علامة على أن تطوير النماذج الكبيرة قد دخل مرحلة جديدة من LLM إلى Long LLM.
عرض Kimi Chat بعض ميزات الترقية في مرحلة Long LLM:
تشير هذه الميزات إلى أن الروبوتات الحوارية تتجه نحو التخصص والتخصيص والعمق، وقد تصبح أداة جديدة لتحفيز تطبيقات الصناعة.
يعتقد يانغ زهي لين أن سوق النماذج الكبيرة في البلاد في المستقبل سينقسم إلى معسكرين، toB و toC، ومن المحتمل أن تظهر تطبيقات فائقة تعتمد على نماذج تم تطويرها داخليًا في مجال toC.
ومع ذلك، لا يزال هناك مجال لتحسين المحادثات النصية الطويلة الحالية، مثل عدم دعم بعض المنتجات لتحديث المعلومات عبر الإنترنت، وعدم القدرة على إيقاف التعديل أثناء عملية التوليد، وما زالت هناك مشاكل في إنتاج معلومات غير دقيقة.
معضلة "مثلث المستحيل" للنصوص الطويلة
تواجه التقنية النصية الطويلة "مثلث المستحيل" من حيث طول النص، والانتباه، وقوة الحساب:
يعود ذلك أساسًا إلى أن معظم النماذج تعتمد على هيكلية Transformer. حيث أن آلية الانتباه الذاتي فيها تجعل كمية الحسابات تنمو بمعدل تربيعي مع زيادة طول السياق. إذا زاد السياق بمقدار 32 مرة، ستزداد كمية الحسابات بمقدار 1000 مرة.
أظهرت الدراسات أن السياق الطويل للغاية يؤدي إلى انخفاض نسبة المعلومات ذات الصلة، مما يزيد من تشتت الانتباه. وهذا يشكل تناقضًا بين طول النص والانتباه.
نقص القوة الحاسوبية كان دائمًا عاملًا مقيدًا. إن زيادة طول النص تؤدي بلا شك إلى استهلاك المزيد من القوة الحاسوبية، مما يخلق تناقضًا بين طول النص والقوة الحاسوبية.
لذلك، هناك ثلاثة أنواع رئيسية من الحلول في الصناعة:
استخدام أدوات خارجية: تقسيم النصوص الطويلة، من خلال البحث عن مقاطع نصية قصيرة لبناء إجابات نصية طويلة.
تحسين حساب الانتباه الذاتي: مثل تقنية LongLoRA التي تقلل من حجم الحسابات من خلال الحسابات المجمعة.
تحسين النموذج: مثل LongLLaMA، يتم تحقيق الاستقراء لتمديد تسلسلات أطول من خلال التعديل الدقيق، أو من خلال تقليل عدد المعلمات لتحسين طول السياق.
لا يمكن حل "مثلث المستحيل" للنصوص الطويلة تمامًا في الوقت الحالي، لكن هذا يوضح أيضًا اتجاه استكشاف الشركات المصنعة للنماذج الكبيرة: البحث عن التوازن الأمثل بين طول النص، والانتباه، وقوة الحوسبة، لمعالجة معلومات كافية مع مراعاة حساب الانتباه وتكاليف الحوسبة.