解决传统架构记忆瓶颈 MiniMax发布新一代模型
1月15日,解决架构记忆“AI六小虎”之一的传统MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。瓶颈该系列模型使用多项突破性创新,布新以大规模应用线性注意力机制打破了Transformer传统架构的代模记忆瓶颈。 未来,解决架构记忆AI智能体有望成为最重要的传统产品形态,由于智能体处理的瓶颈任务变得越来越复杂,涉及的布新数据量也越来越大,单个智能体的代模记忆以及多个智能体协作间的上下文都会变得越来越长。因此,解决架构记忆长上下文能力与多模态处理能力的传统提升至关重要。 技术上,瓶颈MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的布新级别,受益于此次架构创新,代模该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。 值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”
-
上一篇
-
下一篇
- 最近发表
-
- 当小动物客串“特邀反诈宣传员”
- 《簡單的真相:現代藝術中的單色畫》:在舊階級制度已經消失的社會中,單色確保了「文化貴族性」
- 天下晨間新聞 日央行嚇市場,日圓將一路升值?| Nike財報驚奇,股價大漲|天下雜誌
- 給需要大量閱讀PDF文獻的你:如何利用「Logseq」標註重點整理筆記,甚至連結成寫作大綱?
- 2025“太空出差”乘组已选定 载人飞行任务发布
- 曾格爾反駁登山記錄造假爭議,但關鍵GPS軌跡要「回台送修機器」才能公開
- 真實與謊言交織的「關廟殺人事件」(下):真假難辨的「日本A片電影夢」,騙殺全台七條人命
- 讀《不平等的童年》:教養與羅馬都不是一天造成的,階級複製從童年開始
- 福建泉州公布15起免罚轻罚典型案例
- 夏布特圖像小說《白鯨記》:亞哈加入這趟捕鯨只有一個目的,就是獵殺那隻白鯨!
- 随机阅读
-
- 浙江绍兴持续提升食品安全监管效能
- 宜蘭人迷惘縣長該投誰:林姿妙貪污官司纏身、江聰淵拚翻轉卻陷「盜採砂石」標籤
- 【小說】川端康成《淺草紅團》導讀:當代淺草懷舊旅行指南,日本現代主義與「新感覺派」的實踐文本
- 大谷翔平接受一年3000萬合約合理嗎?對天使隊的意義是什麼?
- 山西虚拟电厂规模突破200万千瓦
- 在高棉看見台灣的影子(五):北漂的「金邊女子圖鑑」,柬埔寨移工為何離鄉背井?
- 【小說】川端康成《淺草紅團》導讀:當代淺草懷舊旅行指南,日本現代主義與「新感覺派」的實踐文本
- 【2022電視金鐘獎】綜藝節目獎《大嘻哈時代》:整體演出製作水平,創造出台灣嘻哈音樂性節目的新舞台
- 市委网信办组织开展国家安全教育系列活动_
- 《緣起香港:張愛玲的異鄉和世界》:我師落華生——張愛玲的中文課
- 黃國昌再揭全台11.6%、195位議員候選人有前科,雲林、苗栗和金門比例最高
- 植物肉擁有完整蛋白質但鈉含量較高,有慢性病者攝取要小心
- 中国代表团的香会时刻:“朋友来了有好酒,豺狼来了有猎枪”
- 【2022電視金鐘獎】賽後分析:台劇爆發的爆冷之年,《華燈初上》和《茶金》為何受委屈?
- 考古顯示尼安德塔人曾與智人共享物質文明,其滅絕並非因為「智商較低」
- 基隆市長選情拉鋸:謝國樑強勢回歸,蔡適應遭逢硬仗,林右昌滿意度高卻無法完全轉嫁
- 聚焦双11•购物更有谱
- 科學家在實驗室培養皿上,養出會玩電子遊戲的「迷你大腦」
- 【專訪】Toii創辦人余政彥:AR獨立遊戲創造商的經驗談,我們到底為何還要做手遊?
- DC《黑亞當》全球票房衝出破億成績,巨石強森:15年來我致力於製作最好的《黑亞當》,而這天終於來了
- 搜索
-
- 友情链接
-