# 大模型争相发展长文本技术,40万token或许只是开始大模型正在以惊人的速度提升处理长文本的能力。从最初的4000 token到如今的40万token,长文本处理能力似乎成为衡量大模型厂商实力的新标准。国际上,OpenAI经过多次升级,将GPT-3.5的上下文输入长度从4千增至1.6万token,GPT-4则从8千增至3.2万token。OpenAI的主要竞争对手Anthropic更是一举将上下文长度提升至10万token。LongLLaMA则将上下文长度扩展到了25.6万token甚至更多。国内方面,大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术,可将7B模型的文本长度拓展到10万token,70B模型则可达3.2万token。目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司也普遍受到资本市场的青睐。OpenAI获得近120亿美元投资,Anthropic估值有望达300亿美元,月之暗面成立半年即完成近20亿元融资。那么,大模型公司为何如此重视长文本技术?上下文长度扩大100倍意味着什么?表面上看,这意味着模型可以处理更长的输入文本,阅读能力更强。例如,3.2万token的GPT-4已可阅读一篇短篇小说,40万token的Kimi Chat则可处理一本长篇巨著。更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用。在这些领域,长文档的摘要、理解和问答能力是基础也是关键。不过,研究表明模型支持更长上下文并不直接等同于更好的效果。关键在于模型如何有效利用上下文信息。目前业界对文本长度的探索还远未达到极限,40万token可能只是一个开始。# 为何要发展长文本技术?月之暗面创始人杨植麟表示,限制输入长度造成了许多大模型应用落地的困境,这正是当前众多公司聚焦长文本技术的原因。例如,在虚拟角色场景中,由于长文本能力不足,角色会遗忘重要信息;开发剧本杀游戏时,输入长度不够只能削减规则设定;在法律、金融等专业领域,深度内容分析常常受挫。长文本能力在未来的Agent和AI原生应用中也很重要。Agent需要依靠历史信息进行决策,AI原生应用需要上下文来保持连贯的用户体验。杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。长文本可以通过提供更多上下文和细节,帮助模型更准确地判断语义、减少歧义。因此,长文本技术既可解决大模型早期的一些问题,又是推进产业应用落地的关键。这标志着大模型发展进入了从LLM到Long LLM的新阶段。Kimi Chat展示了Long LLM阶段的一些升级功能:- 对超长文本进行关键信息提取、总结和分析- 将文字直接转化为代码,复现论文中的代码生成过程 - 实现角色扮演,与历史人物或虚拟角色对话这些功能表明,对话机器人正朝着专业化、个性化、深度化方向发展,可能成为撬动产业应用的新抓手。杨植麟认为,未来国内大模型市场会分为toB和toC两个阵营,在toC领域可能出现基于自研模型的超级应用。不过,当前长文本对话还有待优化,如部分产品不支持联网更新信息、生成过程中无法暂停修改、仍存在胡编乱造等问题。# 长文本的"不可能三角"困境长文本技术面临文本长度、注意力和算力的"不可能三角"困境:- 文本越长,越难集中充分注意力- 注意力有限,短文本难以完整解读复杂信息- 处理长文本需要大量算力,提高成本这主要源于大多数模型基于Transformer结构。其中的自注意力机制使计算量随上下文长度呈平方级增长。上下文增加32倍,计算量会增加1000倍。研究表明,过长上下文会导致相关信息占比下降,加剧注意力分散。这构成了文本长短与注意力的矛盾。算力短缺一直是制约因素。扩大文本长度不可避免地消耗更多算力,形成文本长短与算力的矛盾。对此,业界主要有三类解决方案:1. 借助外部工具:将长文本切分处理,通过检索短文本片段来构建长文本回答。2. 优化自注意力计算:如LongLoRA技术通过分组计算降低计算量。3. 模型优化:如LongLLaMA通过微调实现更长序列的外推,或通过减少参数量来提升上下文长度。长文本的"不可能三角"困境暂时难以完全解决,但这也明确了大模型厂商的探索方向:在文本长度、注意力和算力三者间寻求最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本。
大模型长文本能力提升至40万token 产业应用潜力巨大
大模型争相发展长文本技术,40万token或许只是开始
大模型正在以惊人的速度提升处理长文本的能力。从最初的4000 token到如今的40万token,长文本处理能力似乎成为衡量大模型厂商实力的新标准。
国际上,OpenAI经过多次升级,将GPT-3.5的上下文输入长度从4千增至1.6万token,GPT-4则从8千增至3.2万token。OpenAI的主要竞争对手Anthropic更是一举将上下文长度提升至10万token。LongLLaMA则将上下文长度扩展到了25.6万token甚至更多。
国内方面,大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术,可将7B模型的文本长度拓展到10万token,70B模型则可达3.2万token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司也普遍受到资本市场的青睐。OpenAI获得近120亿美元投资,Anthropic估值有望达300亿美元,月之暗面成立半年即完成近20亿元融资。
那么,大模型公司为何如此重视长文本技术?上下文长度扩大100倍意味着什么?
表面上看,这意味着模型可以处理更长的输入文本,阅读能力更强。例如,3.2万token的GPT-4已可阅读一篇短篇小说,40万token的Kimi Chat则可处理一本长篇巨著。
更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用。在这些领域,长文档的摘要、理解和问答能力是基础也是关键。
不过,研究表明模型支持更长上下文并不直接等同于更好的效果。关键在于模型如何有效利用上下文信息。目前业界对文本长度的探索还远未达到极限,40万token可能只是一个开始。
为何要发展长文本技术?
月之暗面创始人杨植麟表示,限制输入长度造成了许多大模型应用落地的困境,这正是当前众多公司聚焦长文本技术的原因。
例如,在虚拟角色场景中,由于长文本能力不足,角色会遗忘重要信息;开发剧本杀游戏时,输入长度不够只能削减规则设定;在法律、金融等专业领域,深度内容分析常常受挫。
长文本能力在未来的Agent和AI原生应用中也很重要。Agent需要依靠历史信息进行决策,AI原生应用需要上下文来保持连贯的用户体验。
杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。长文本可以通过提供更多上下文和细节,帮助模型更准确地判断语义、减少歧义。
因此,长文本技术既可解决大模型早期的一些问题,又是推进产业应用落地的关键。这标志着大模型发展进入了从LLM到Long LLM的新阶段。
Kimi Chat展示了Long LLM阶段的一些升级功能:
这些功能表明,对话机器人正朝着专业化、个性化、深度化方向发展,可能成为撬动产业应用的新抓手。
杨植麟认为,未来国内大模型市场会分为toB和toC两个阵营,在toC领域可能出现基于自研模型的超级应用。
不过,当前长文本对话还有待优化,如部分产品不支持联网更新信息、生成过程中无法暂停修改、仍存在胡编乱造等问题。
长文本的"不可能三角"困境
长文本技术面临文本长度、注意力和算力的"不可能三角"困境:
这主要源于大多数模型基于Transformer结构。其中的自注意力机制使计算量随上下文长度呈平方级增长。上下文增加32倍,计算量会增加1000倍。
研究表明,过长上下文会导致相关信息占比下降,加剧注意力分散。这构成了文本长短与注意力的矛盾。
算力短缺一直是制约因素。扩大文本长度不可避免地消耗更多算力,形成文本长短与算力的矛盾。
对此,业界主要有三类解决方案:
借助外部工具:将长文本切分处理,通过检索短文本片段来构建长文本回答。
优化自注意力计算:如LongLoRA技术通过分组计算降低计算量。
模型优化:如LongLLaMA通过微调实现更长序列的外推,或通过减少参数量来提升上下文长度。
长文本的"不可能三角"困境暂时难以完全解决,但这也明确了大模型厂商的探索方向:在文本长度、注意力和算力三者间寻求最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本。