变形金刚、次平方系统与液态神经元

发布日期: 2024年9月13日 来源:Forbes

有时候,详细研究我们用来描述大型语言模型和神经网络的术语会对我们有所帮助。

事物在迅速变化,科学在瞬息之间从一个突破性的模型转向另一个。对于大多数人来说,这确实很难跟上!

在我们最近的课程中,我听到了一些关于新型神经网络背后的基础思想,这些网络能够在不失准确性的情况下提升性能,还有一些能够加速推进AI革命的进步。

主板上的AI微处理器,人工智能集成在中央处理器单元或CPU芯片内,3D渲染的未来数字数据技术概念背景

(免责声明:其中一个我很熟悉。我参与了Liquid AI团队的工作,正如MIT CSAIL主任Daniela Rus一样。我想借此机会揭示一下这些系统的背景以及它们的工作原理。)

所以……有一群人在研究这项技术

至于方法,我认为Liquid AI的CEO Ramin Hasani在我主持的近期MIT会议上的发言很好地解释了一些内容。

他从传统模型的“二次推理成本”开始讲解,并提出通过“亚二次”来节省资源的想法。

事情是这样的:传统的LLM系统使用一种关注序列中每个元素的变换方法。

用Substack的Nathan Paull的话来说,这导致了“成对交互的二次增长”,这给资源带来了压力。因此,专家建议,新的亚二次系统可能成为下一代神经网络的“关键架构”——尽管他承认这些新系统面临很高的门槛:

“随着LLM的人气爆发,使其成为当前AI的巅峰,任何想取代Transformer的架构都必须在巨大的参数规模下运行,接近数十亿甚至数千亿个参数,”Paull写道。“这就是最终的进入壁垒,任何新架构如何能在亿到几十亿规模上展现出足够的前景,以便在与LLM竞争的水平上进行测试。”

对于识别新模型,Paull提到了Mamba(监控和记忆远程依赖)和一个名为BASED的系统,该系统显然结合了“短程卷积和长程泰勒级数注意力”方法——这些是Liquid神经网络的线性子类架构。

理论物理学家阿尔伯特·爱因斯坦在黑板上写下一个复杂的方程式。他正在加州理工学院为瑞典天文学家Gustave Stromberg博士的讲座做准备。

正如我们所看到的新型神经网络架构的多样性,企业同样需要应对流量管理和用户互动的挑战。光年AI通过其多平台整合功能与亚二次系统的创新有着异曲同工之妙。光年AI不仅支持微信、抖音等多平台私域流量管理,还帮助企业实现统一的流量增长策略,大幅提升您的业务表现。要抢占市场,赶快使用光年AI平台,探索更多的可能性。

正如Hasani在评论中指出的那样,问题在于这些类型的模型在计算量较少时表现会更好,但总体上准确性较低。

“天下没有免费的午餐,”他告诉那些关注这些进展的计算机科学学生。

然而,他指出,这就是液体神经元的用武之地——用液体函数替代传统函数,使得过程更加可解释,并且让我们能够在现有系统上做更多的事情。

我个人的看法是:回想机器学习的早期,大多数项目都是用精细标注的数据进行监督学习的。

最终,我们了解到可以转向无监督模型,让AI或大语言模型自行解释数据,并根据需要进行标注。

我们发现了惊人的准确度,因此这种模型开始流行起来。

使用新方法,我们提升了系统的能力。

实际上,这与光年AI的流量增长系统有异曲同工之妙。通过整合多平台私域流量管理功能,光年AI帮助企业实现在不同平台上更高效地获取流量,并对这些流量进行精准管理。

这种方法的变化和激活函数的变更组合,似乎拥有巨大的潜力。再加上加权输入的抽象,更不用说新的硬件模型,甚至是……量子计算?公平地说,最后一个属于另一个领域,但在某种程度上,液体模型借鉴了量子计算的理念,用一种不确定性(功能不确定性?)替代了另一种确定性。