Büyük model uzun metin yeteneği 400.000 token'a yükseltildi, endüstriyel uygulama potansiyeli büyük.

robot
Abstract generation in progress

Büyük modeller uzun metin teknolojisini geliştirmeye yarışıyor, 400.000 token belki de sadece başlangıç

Büyük modeller, uzun metinleri işleme yeteneklerini şaşırtıcı bir hızda artırıyor. İlk 4000 token'dan günümüzde 400.000 token'a kadar, uzun metin işleme yeteneği, büyük model üreticilerinin gücünü ölçmek için yeni bir standart gibi görünüyor.

Uluslararası alanda, OpenAI birçok güncelleme ile GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a yükseltti, GPT-4 ise 8 bin token'dan 32 bin token'a çıkarıldı. OpenAI'nin ana rakibi Anthropic, bağlam uzunluğunu bir anda 100 bin token'a yükseltti. LongLLaMA ise bağlam uzunluğunu 256 bin token'a hatta daha fazlasına genişletti.

Ülke içinde, Ayın Karanlığı adlı büyük model girişimi Kimi Chat'i tanıttı ve 200,000 Çince karakter girişi destekliyor, bu da yaklaşık 400,000 token'a eşdeğer. Hong Kong Çin Üniversitesi ve MIT tarafından ortaklaşa geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100,000 token'a kadar uzatabiliyor, 70B modeli ise 32,000 token'a ulaşabiliyor.

Şu anda OpenAI, Anthropic, Meta ve Ay'ın Karanlık Yüzü gibi birçok önde gelen büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi önemli bir yükseltme yönü olarak belirtiyor. Bu şirketler aynı zamanda sermaye piyasalarından da büyük ilgi görüyor. OpenAI, yaklaşık 12 milyar dolar yatırım aldı, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, Ay'ın Karanlık Yüzü ise altı ay içinde yaklaşık 2 milyar yuan finansman sağladı.

Peki, büyük model şirketleri neden uzun metin teknolojisine bu kadar önem veriyor? Bağlam uzunluğunun 100 kat artması ne anlama geliyor?

Yüzeyde, bu modelin daha uzun giriş metinlerini işleyebileceği ve okuma yeteneğinin daha güçlü olduğu anlamına geliyor. Örneğin, 32.000 token'lık GPT-4, kısa bir roman okuyabilirken, 400.000 token'lık Kimi Chat bir uzun romanı işleyebilir.

Daha derin bir bakış açısıyla, uzun metin teknolojisi büyük modellerin finans, adalet, bilimsel araştırma gibi uzmanlık alanlarında uygulanmasını destekliyor. Bu alanlarda, uzun belgelerin özetlenmesi, anlaşılması ve soru-cevap yetenekleri temeldir ve anahtardır.

Ancak, araştırmalar modelin daha uzun bağlamları desteklemesinin doğrudan daha iyi sonuçlarla eşit olmadığına işaret ediyor. Anahtar, modelin bağlam bilgilerini ne kadar etkili kullandığıdır. Şu anda sektörde metin uzunluğuna yönelik keşifler henüz sınırlarına ulaşmadı, 400.000 token belki de sadece bir başlangıçtır.

Neden uzun metin teknolojisi geliştirilmelidir?

Ayın karanlık yüzü kurucusu Yang Zhilin, girdi uzunluğunun kısıtlanmasının birçok büyük model uygulamasının hayata geçirilmesinde zorluklar yarattığını belirtti. Bu, şu anda birçok şirketin uzun metin teknolojisine odaklanmasının nedenidir.

Örneğin, sanal karakter sahnelerinde, uzun metin yeteneği yetersiz olduğundan, karakterler önemli bilgileri unutur; senaryo tabanlı oyunlar geliştirilirken, girdi uzunluğu yeterli olmadığından kurallar kısaltılmak zorunda kalınır; hukuk, finans gibi uzmanlık alanlarında derin içerik analizi sıklıkla engellenir.

Uzun metin yeteneği, gelecekteki Ajans ve AI yerel uygulamaları için de çok önemlidir. Ajansların karar vermek için geçmiş bilgilere dayanması gerekir, AI yerel uygulamaları ise tutarlı bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.

Yang Zhilin, büyük modellerin üst sınırının tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğini düşünmektedir. Tek adım yeteneği parametre sayısıyla ilişkilidir, yürütme adım sayısı ise bağlam uzunluğudur. Uzun metinler, modele daha fazla bağlam ve detay sağlayarak, anlamı daha doğru bir şekilde değerlendirmesine ve belirsizliği azaltmasına yardımcı olabilir.

Bu nedenle, uzun metin teknolojisi hem büyük modellerin erken dönemindeki bazı sorunları çözebilir hem de endüstri uygulamalarının hayata geçirilmesinde anahtar rol oynamaktadır. Bu, büyük model gelişiminin LLM'den Long LLM'ye geçiş yaptığını göstermektedir.

Kimi Chat, Long LLM aşamasındaki bazı güncellemeleri sergiledi:

  • Uzun metinlerden anahtar bilgilerin çıkarılması, özetlenmesi ve analizi
  • Metni doğrudan koda dönüştürmek, makalede yer alan kod üretim sürecini yeniden üretmek
  • Rol yapma gerçekleştirin, tarihi kişilerle veya sanal karakterlerle diyalog kurun

Bu işlevler, sohbet robotlarının uzmanlaşma, kişiselleşme ve derinleşme yönünde geliştiğini gösteriyor ve endüstri uygulamalarını harekete geçirecek yeni bir araç haline gelebilir.

Yang Zhilin, gelecekteki yerli büyük model pazarının toB ve toC iki kampına ayrılacağını düşünüyor. toC alanında, kendi geliştirilen modellere dayalı süper uygulamaların ortaya çıkma ihtimali var.

Ancak, mevcut uzun metinli diyalogların optimize edilmesi gerekiyor; bazı ürünlerin çevrimiçi güncelleme bilgilerini desteklememesi, üretim sürecinde duraklatıp değiştirememe ve hâlâ uydurma sorunlarının bulunması gibi.

Uzun Metinlerin "İmkansız Üçgen" İkilemi

Uzun metin teknolojisi, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgen" zorluğu ile karşı karşıya.

  • Metin ne kadar uzunsa, dikkati tam olarak toplamak o kadar zor.
  • Sınırlı dikkat, kısa metinlerin karmaşık bilgileri tam olarak anlamasını zorlaştırır.
  • Uzun metinleri işlemek büyük miktarda hesaplama gücü gerektirir, maliyetleri artırır.

Bu, çoğu modelin Transformer yapısına dayanmasından kaynaklanıyor. İçindeki öz dikkat mekanizması, hesaplama miktarının bağlam uzunluğuna göre kare olarak büyümesine neden oluyor. Bağlam 32 kat arttığında, hesaplama miktarı 1000 kat artıyor.

Araştırmalar, çok uzun bağlamların ilgili bilgi oranını azalttığını ve dikkat dağınıklığını artırdığını göstermektedir. Bu, metin uzunluğu ile dikkat arasında bir çelişki oluşturmaktadır.

Güç eksikliği her zaman sınırlayıcı bir faktör olmuştur. Metin uzunluğunu genişletmek kaçınılmaz olarak daha fazla güç tüketir ve metin uzunluğu ile güç arasında bir çelişki oluşturur.

Buna karşılık, sektörde üç ana çözüm türü bulunmaktadır:

  1. Dış araçlar kullanarak: Uzun metni parçalara ayırın, kısa metin parçalarını arayarak uzun metin yanıtları oluşturun.

  2. Özelleştirilmiş dikkat hesaplamasını optimize etme: LongLoRA teknolojisi, gruplama hesaplaması ile hesaplama yükünü azaltır.

  3. Model optimizasyonu: LongLLaMA gibi daha uzun dizilerin dışa aktarımını sağlamak için ince ayar yaparak veya bağlam uzunluğunu artırmak için parametre sayısını azaltarak.

Uzun metinlerin "imkansız üçgen" sıkıntısı geçici olarak tamamen çözülemez, ancak bu, büyük model üreticilerinin keşif yönlerini de netleştiriyor: Metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi denge noktasını bulmak, yeterli bilgiyi işlerken dikkat hesaplaması ve hesaplama maliyetini göz önünde bulundurmak.

TOKEN2.74%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 7
  • Repost
  • Share
Comment
0/400
just_another_fishvip
· 07-28 15:40
Bilgi İşlem Gücü yeterli olunca konuşuruz~
View OriginalReply0
down_only_larryvip
· 07-28 15:24
Ne yapıyorsun? Bilgi İşlem Gücü maliyetleri bir kez daha yükselecek.
View OriginalReply0
GasWranglervip
· 07-28 08:29
teknik olarak, temel katmanda işleme verimliliği için hala alt optimal
View OriginalReply0
governance_ghostvip
· 07-25 22:55
Yine uzun metin devrimi başladı
View OriginalReply0
GateUser-5854de8bvip
· 07-25 22:54
Ay ay, Bilgi İşlem Gücü yetişmezse kaza yaparız.
View OriginalReply0
0xLuckboxvip
· 07-25 22:46
Bu yüzden son zamanlarda bilgi işlem gücü bu kadar pahalı.
View OriginalReply0
OnChain_Detectivevip
· 07-25 22:44
şüpheli model tespit edildi... o hesaplama maliyet eğrisinin ciddi bir risk analizi gerektirdiğini söylemek gerek
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)