• 首页
  • 新疆体育杂志社介绍
  • 产品展示
  • 新闻动态
  • 新疆体育杂志社介绍你的位置:新疆体育杂志社 > 新疆体育杂志社介绍 > MiniMax挑战传统Transformer架构

    MiniMax挑战传统Transformer架构

    发布日期:2025-01-23 04:47    点击次数:58

    昨天MiniMax开源着实在AI圈子引发了不小的震动,比如人工智能大V博主AK一连发了多条帖子。MiniMax到底强在哪里?昨天我认真学习了下68页的开源技术报告,真的有被震惊到。 这次开源最大的技术创新,是MiniMax自研了一个新架构,直接挑战传统Transformer架构。

    新模型三大亮点:

    混合注意力机制:每 7 个线性注意力层后插入一个 Softmax 注意力层

    长上下文:训练窗口100万token,推理窗口400万token,而且超便宜

    混合专家(MoE)架构,总参数:4560亿,激活参数:459亿,专家数量32

    展开剩余63%

    最大的技术亮点,就是这个叫做“闪电注意力机制Lightning Attention”的Scaling Law。

    简单解释下:传统注意力机制下,序列长度与计算量是平方关系,所以上下文越长,计算量越大,模型也就越昂贵,显然是成本的不能承受之重。而线性注意力机制是一种改进的注意力机制,线性注意力机制通过将计算复杂度降低到线性,使得模型能够更高效地处理长序列数据。

    线性注意力机制已经提出好多年了,但此前只停在实验室与小规模阶段。MiniMax要解决线性注意力机制在大规模训练后如何高效计算的问题。因此,MiniMax团队在2024年提出Lightning Attention,是一种线性注意力变体的I/O感知实现。

    MiniMax创始人去年8月还说过:“在做线性注意力机制的过程中,我们非常惊喜地发现,其实GPT-4o也是这么做的。” 而现在,MiniMax开源新模型成功验证了Lightning Attention在大规模集群训练的可行性,并将长文本扩展到400万token的时代。 这件事有什么意义?一旦长文本输入的成本与高效计算问题被解决,那么各种各样的Agent就离真正的大规模落地不远了。想象一下,我直接把一本专业的编程书籍发给Agent,让它协助整个编程项目;或者我把成千上万的法律案例发给Agent,让它直接化身AI律师。

    现在由于成本与技术的限制,没有哪个模型能做到这么长的文本以及低成本的并行计算,MiniMax是第一个做到的。

    最最重要的是,这个技术是国产大模型公司发布的!!!说一句MiniMax是国产之光,不过分吧。

    发布于:北京市

    上一篇:没有了

    下一篇:没有了

    Powered by 新疆体育杂志社 @2013-2022 RSS地图 HTML地图