解决传统架构记忆瓶颈 MiniMax发布新一代模型
1月15日,解决架构记忆“AI六小虎”之一的传统MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。瓶颈该系列模型使用多项突破性创新,布新以大规模应用线性注意力机制打破了Transformer传统架构的代模记忆瓶颈。 未来,解决架构记忆AI智能体有望成为最重要的传统产品形态,由于智能体处理的瓶颈任务变得越来越复杂,涉及的布新数据量也越来越大,单个智能体的代模记忆以及多个智能体协作间的上下文都会变得越来越长。因此,解决架构记忆长上下文能力与多模态处理能力的传统提升至关重要。 技术上,瓶颈MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的布新级别,受益于此次架构创新,代模该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。 值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 元旦假期国内旅游出游5271.34万人次,旅游收入265.17亿元
- 匈牙利外长:欧盟前所未有的无耻!
- 采摘垂钓,亲子同乐邂逅缤纷假期
- 推进河长制巡查完成道路安全隐患整改
- 浙江杭州:春节期间餐饮、住宿、文娱投诉较集中
- 一天火化30名染疫者!柯文哲驚呼「這麼多」 擬用「透明視窗屍袋」
- 鋒面來襲!一圖看一週天氣 週二起變天「留意雨彈轟炸」
- “双11”当天 泉州快递业务量突破千万件
- 打击整治养老诈骗专项行动|“养生麦饭石炒锅” 是吸毒之王?浙江台州三门县查获一起不正当竞争炒锅案
- 交警提醒:雨天驾驶需谨慎
- 涨知识!全国著名演讲家给喀什孩子带来生动演讲课
- 薇薇安・邁爾攝影展:不管是保母還是攝影師,女人都能為自己而活
- 天长“检察护企”用法治力量助企前行_
- 推进河长制巡查完成道路安全隐患整改
- 女大学生不堪就业压力自杀 留10万字日记
- 巴以冲突又起,中东“和解大潮”难再续?丨智库视点
- 立秋:一宿秋风未觉凉
- 春耕正当时,连州玉米移栽忙
- 今年已有27种处方药转换为非处方药
- 【插畫】你覺得家裡的貓咪相處融洽嗎?
- 搜索
-
- 友情链接
-