🎉 攢成長值,抽華爲Mate三折疊!廣場第 1️⃣ 2️⃣ 期夏季成長值抽獎大狂歡開啓!
總獎池超 $10,000+,華爲Mate三折疊手機、F1紅牛賽車模型、Gate限量週邊、熱門代幣等你來抽!
立即抽獎 👉 https://www.gate.com/activities/pointprize?now_period=12
如何快速賺成長值?
1️⃣ 進入【廣場】,點擊頭像旁標識進入【社區中心】
2️⃣ 完成發帖、評論、點讚、發言等日常任務,成長值拿不停
100%有獎,抽到賺到,大獎等你抱走,趕緊試試手氣!
截止於 8月9日 24:00 (UTC+8)
詳情: https://www.gate.com/announcements/article/46384
#成长值抽奖12期开启#
大模型長文本能力提升至40萬token 產業應用潛力巨大
大模型爭相發展長文本技術,40萬token或許只是開始
大模型正在以驚人的速度提升處理長文本的能力。從最初的4000 token到如今的40萬token,長文本處理能力似乎成爲衡量大模型廠商實力的新標準。
國際上,OpenAI經過多次升級,將GPT-3.5的上下文輸入長度從4千增至1.6萬token,GPT-4則從8千增至3.2萬token。OpenAI的主要競爭對手Anthropic更是一舉將上下文長度提升至10萬token。LongLLaMA則將上下文長度擴展到了25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術,可將7B模型的文本長度拓展到10萬token,70B模型則可達3.2萬token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將拓展上下文長度作爲重點升級方向。這些公司也普遍受到資本市場的青睞。OpenAI獲得近120億美元投資,Anthropic估值有望達300億美元,月之暗面成立半年即完成近20億元融資。
那麼,大模型公司爲何如此重視長文本技術?上下文長度擴大100倍意味着什麼?
表面上看,這意味着模型可以處理更長的輸入文本,閱讀能力更強。例如,3.2萬token的GPT-4已可閱讀一篇短篇小說,40萬token的Kimi Chat則可處理一本長篇巨著。
更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用。在這些領域,長文檔的摘要、理解和問答能力是基礎也是關鍵。
不過,研究表明模型支持更長上下文並不直接等同於更好的效果。關鍵在於模型如何有效利用上下文信息。目前業界對文本長度的探索還遠未達到極限,40萬token可能只是一個開始。
爲何要發展長文本技術?
月之暗面創始人楊植麟表示,限制輸入長度造成了許多大模型應用落地的困境,這正是當前衆多公司聚焦長文本技術的原因。
例如,在虛擬角色場景中,由於長文本能力不足,角色會遺忘重要信息;開發劇本殺遊戲時,輸入長度不夠只能削減規則設定;在法律、金融等專業領域,深度內容分析常常受挫。
長文本能力在未來的Agent和AI原生應用中也很重要。Agent需要依靠歷史信息進行決策,AI原生應用需要上下文來保持連貫的用戶體驗。
楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,而執行步驟數即上下文長度。長文本可以通過提供更多上下文和細節,幫助模型更準確地判斷語義、減少歧義。
因此,長文本技術既可解決大模型早期的一些問題,又是推進產業應用落地的關鍵。這標志着大模型發展進入了從LLM到Long LLM的新階段。
Kimi Chat展示了Long LLM階段的一些升級功能:
這些功能表明,對話機器人正朝着專業化、個性化、深度化方向發展,可能成爲撬動產業應用的新抓手。
楊植麟認爲,未來國內大模型市場會分爲toB和toC兩個陣營,在toC領域可能出現基於自研模型的超級應用。
不過,當前長文本對話還有待優化,如部分產品不支持聯網更新信息、生成過程中無法暫停修改、仍存在胡編亂造等問題。
長文本的"不可能三角"困境
長文本技術面臨文本長度、注意力和算力的"不可能三角"困境:
這主要源於大多數模型基於Transformer結構。其中的自注意力機制使計算量隨上下文長度呈平方級增長。上下文增加32倍,計算量會增加1000倍。
研究表明,過長上下文會導致相關信息佔比下降,加劇注意力分散。這構成了文本長短與注意力的矛盾。
算力短缺一直是制約因素。擴大文本長度不可避免地消耗更多算力,形成文本長短與算力的矛盾。
對此,業界主要有三類解決方案:
借助外部工具:將長文本切分處理,通過檢索短文本片段來構建長文本回答。
優化自注意力計算:如LongLoRA技術通過分組計算降低計算量。
模型優化:如LongLLaMA通過微調實現更長序列的外推,或通過減少參數量來提升上下文長度。
長文本的"不可能三角"困境暫時難以完全解決,但這也明確了大模型廠商的探索方向:在文本長度、注意力和算力三者間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本。