昨天MiniMax开源着实在AI圈子引发了不小的震动,比如人工智能大V博主AK一连发了多条帖子。MiniMax到底强在哪里?昨天我认真学习了下68页的开源技术报告,真的有被震惊到。 这次开源最大的技术创新,是MiniMax自研了一个新架构,直接挑战传统Transformer架构。
新模型三大亮点:
混合注意力机制:每 7 个线性注意力层后插入一个 Softmax 注意力层
长上下文:训练窗口100万token,推理窗口400万token,而且超便宜
混合专家(MoE)架构,总参数:4560亿,激活参数:459亿,专家数量32
展开剩余63%最大的技术亮点,就是这个叫做“闪电注意力机制Lightning Attention”的Scaling Law。
简单解释下:传统注意力机制下,序列长度与计算量是平方关系,所以上下文越长,计算量越大,模型也就越昂贵,显然是成本的不能承受之重。而线性注意力机制是一种改进的注意力机制,线性注意力机制通过将计算复杂度降低到线性,使得模型能够更高效地处理长序列数据。
线性注意力机制已经提出好多年了,但此前只停在实验室与小规模阶段。MiniMax要解决线性注意力机制在大规模训练后如何高效计算的问题。因此,MiniMax团队在2024年提出Lightning Attention,是一种线性注意力变体的I/O感知实现。
MiniMax创始人去年8月还说过:“在做线性注意力机制的过程中,我们非常惊喜地发现,其实GPT-4o也是这么做的。” 而现在,MiniMax开源新模型成功验证了Lightning Attention在大规模集群训练的可行性,并将长文本扩展到400万token的时代。 这件事有什么意义?一旦长文本输入的成本与高效计算问题被解决,那么各种各样的Agent就离真正的大规模落地不远了。想象一下,我直接把一本专业的编程书籍发给Agent,让它协助整个编程项目;或者我把成千上万的法律案例发给Agent,让它直接化身AI律师。
现在由于成本与技术的限制,没有哪个模型能做到这么长的文本以及低成本的并行计算,MiniMax是第一个做到的。
最最重要的是,这个技术是国产大模型公司发布的!!!说一句MiniMax是国产之光,不过分吧。
发布于:北京市