MiniMax挑战传统Transformer架构

新疆体育杂志社介绍你的位置：新疆体育杂志社 > 新疆体育杂志社介绍 > MiniMax挑战传统Transformer架构

MiniMax挑战传统Transformer架构

发布日期：2025-01-23 04:47 点击次数：58

昨天MiniMax开源着实在AI圈子引发了不小的震动，比如人工智能大V博主AK一连发了多条帖子。MiniMax到底强在哪里？昨天我认真学习了下68页的开源技术报告，真的有被震惊到。这次开源最大的技术创新，是MiniMax自研了一个新架构，直接挑战传统Transformer架构。

新模型三大亮点：

混合注意力机制：每 7 个线性注意力层后插入一个 Softmax 注意力层

长上下文：训练窗口100万token，推理窗口400万token，而且超便宜

混合专家（MoE）架构，总参数：4560亿，激活参数：459亿，专家数量32

展开剩余63%

最大的技术亮点，就是这个叫做“闪电注意力机制Lightning Attention”的Scaling Law。

简单解释下：传统注意力机制下，序列长度与计算量是平方关系，所以上下文越长，计算量越大，模型也就越昂贵，显然是成本的不能承受之重。而线性注意力机制是一种改进的注意力机制，线性注意力机制通过将计算复杂度降低到线性，使得模型能够更高效地处理长序列数据。

线性注意力机制已经提出好多年了，但此前只停在实验室与小规模阶段。MiniMax要解决线性注意力机制在大规模训练后如何高效计算的问题。因此，MiniMax团队在2024年提出Lightning Attention，是一种线性注意力变体的I/O感知实现。

MiniMax创始人去年8月还说过：“在做线性注意力机制的过程中，我们非常惊喜地发现，其实GPT-4o也是这么做的。” 而现在，MiniMax开源新模型成功验证了Lightning Attention在大规模集群训练的可行性，并将长文本扩展到400万token的时代。这件事有什么意义？一旦长文本输入的成本与高效计算问题被解决，那么各种各样的Agent就离真正的大规模落地不远了。想象一下，我直接把一本专业的编程书籍发给Agent，让它协助整个编程项目；或者我把成千上万的法律案例发给Agent，让它直接化身AI律师。

现在由于成本与技术的限制，没有哪个模型能做到这么长的文本以及低成本的并行计算，MiniMax是第一个做到的。

最最重要的是，这个技术是国产大模型公司发布的！！！说一句MiniMax是国产之光，不过分吧。

发布于：北京市

新疆体育杂志社

新疆体育杂志社介绍你的位置：新疆体育杂志社 > 新疆体育杂志社介绍 > MiniMax挑战传统Transformer架构

MiniMax挑战传统Transformer架构

上一篇：没有了

下一篇：没有了

友情链接：