- 作为Anaconda的首席执行官,Peter Wang帮助编程语言分销商改进AI解决方案。
- 这包括支持本地IT并在本地运行AI模型以提高安全性和效率。
- 本文是 “Build IT” 系列文章的一部分,探讨了数字科技趋势如何颠覆行业。
Peter Wang 是 Anaconda 的首席执行官,他于2012年共同创立了这家公司,目标是通过让Python工具更易用来普及商业数据分析。在Wang的领导下,Anaconda随着Python成为全球最受欢迎的编程语言之一而不断壮大。
随着Python被确立为AI工作负载的主要语言,Anaconda正在将重心扩展到数据科学和人工智能领域,目标是成为高性能AI的通用软件层。
Anaconda推出了多种工具,帮助公司和个人入门大型语言模型AI。其中一个工具是AI Navigator,这是一个可以在Windows和Mac本地运行AI模型的桌面应用程序,Linux支持即将推出。该公司拥有300名全职员工,全球有4000万用户。
《商业内幕》采访了Wang,以了解AI工作负载如何促使公司考虑将更多IT基础设施本地化,以及这一举措带来的硬件和软件挑战。
以下内容经过编辑以提高清晰度和简洁性。
您能谈谈内部基础设施吗?这个术语对你来说在2024年意味着什么?
最初,本地化的意思是在公司物理位置内的服务器。现在更多的是指基础设施的治理,包括数据、网络和服务器。谁来管理?谁有权说“不,绝对不行”或“是的,你可以”这样的决定?
在Anaconda,我们看到各种客户。一些客户有我们称之为隔离系统的系统,这些系统完全不连接互联网。可能是某个建筑物内的一个盒子,通常由持枪警卫守护,进入时需要携带闪存驱动器。这是高度安全的本地化水平。
另一端,我们看到使用大量云资源的企业。但是即使是这些企业也需要更严格的边界。他们与云提供商合作设置虚拟私有云,或按照特定的治理规则和政策配置资源。
为什么企业对AI和大型语言模型的本地化解决方案感兴趣?
我们看到公司对掌控自身命运非常感兴趣。
他们希望在自己的数据上微调模型,将其连接到内部数据库以进行检索增强生成,并使用基于代理的模型。如果一家公司只能将AI作为云端终端来使用,那么必须将所有内部系统与云端AI服务连接起来,这非常困难。
而许多这些云AI公司,尽管资金充足,但作为企业软件玩家相对较新。这里存在许多关于数据泄露和合规性的担忧。
在本地运行能提供更多控制权并减少意外数据暴露的风险。您不必担心云端初创公司的初级IT人员意外配置错误并导致数据泄露。
数据泄露的风险很明显,但许多公司似乎担心任何外部使用其数据进行AI处理。为什么会这样?
人们常说数据如油。如果你的数据是油,那么大语言模型(LLM)就像内燃机,这意味着它们提供了一种更有趣的方式来使用这些“油”。
公司希望利用他们的敏感“皇冠上的宝石”数据与LLM结合,以获取洞察力并提高预测分析。这些用例对他们的业务至关重要,因此他们非常保护这些数据。他们不信任将这些数据放在可能泄露宝贵信息(如客户见解或产品偏好)的外部系统上。
当人们想到“本地部署”时,他们往往专注于硬件。但你所描述的很多似乎是软件。你能详细解释一下吗?
用于AI工作的硬件在不同设置中通常相似。通常是高端的 Nvidia GPU,尽管并不总是最新或最昂贵的版本。在硬件栈之上,如果你知道如何做,运行LLM所需的软件并不复杂。但这里有一个大前提。
挑战通常来自内部IT政策、组织能力以及AI工作负载的动态性质。例如,如果你的组织熟悉Docker或Kubernetes,那很好。但如果你是一个习惯使用Maven进行部署的Java团队,或者一个不熟悉Python的Ruby团队,这就会产生障碍。当这些公司想要启动内部的LLM时,这就是他们需要帮助的地方。
AI工作负载在不同时间需要不同数量的计算能力。当你在进行训练时,你可能需要很多GPU,或较少,又或者是不同种类的——甚至是 只需要CPU。
这种动态的硬件需求,有时在何时需要和需要多久方面非常突发,形成了一个协调上的挑战。那就变成了一个软件挑战,然后是一个组织的挑战。
你是不是在说挑战在于优化软件以高效和动态地使用硬件?
我其实认为这更像是一个公司综合能力的挑战。
在传统的软件开发中,IT部门会与软件开发部门沟通。开发人员会指定他们对内存、带宽、存储的需求,然后IT部门负责提供。
但数据科学家和机器学习团队有动态的需求。他们需要更新、更先进的硬件,而他们运行的软件是拥有众多依赖项的Python,比如特定的GPU驱动程序版本。
组织在本地AI中面临的挑战与服务器和机器协调的动态性质以及他们所接触的开源软件生态系统有关。这对于合规和安全需求尤为重要。
说到开源,你对开源与闭源LLM有何看法?
我尝试远离社交媒体的纷争,但我的看法是目前的LLM,尤其是前沿模型,在功能上有很多重叠。一些在某些方面比其他的更好,但从核心上来说,一旦你给它们足够的数据,这些模型开始变得彼此相似。
让像Meta的Llama这样的开源模型免费提供是一个游戏规则的改变。最初的Llama发布意义重大,而 最新的Llama 3.1模型拥有4000亿参数,是一个巨大的进步。这将增加对在本地运行模型的兴趣,特别是对敏感数据进行微调。
但是,虽然这些模型通常被称为开源,它们并不是传统意义上的开源。你可以自由使用它们,但你不能从头开始重新构建它们或随意修改它们。训练数据、脚本和超参数往往不会被披露。这是一个涉及安全性和许可的复杂问题。用于训练的数据特别是一个没有人真正讨论的大问题。
希望实施本地AI的公司应该如何开始?
Anaconda有一个AI Navigator工具,这是一个很好的入门途径。这是一个简单的图形界面,你可以在这里为你的计算机下载适当的模型。我们目前处于测试阶段,非常希望获得用户的反馈。
我们的工具连接到我们策划的模型库。我们已经量化了模型,使它们变得更小、更高效,以适应不同的机器,这很重要,因为从公共库下载模型可能会带来安全风险。
例如,我们看到过一些攻击事件,有人上传了调整过的代码生成模型,它会幻想出不存在的Python包。它生成的代码试图导入或安装这些虚假包,然后攻击者在现实中创建这些包的恶意版本。当用户尝试运行生成的代码时,他们会安装这些恶意包。
我们的工具帮助用户克服了在本地设置和运行AI模型的许多初期障碍。它加速了软件在特定机器上正确运行的过程,使企业更容易和更安全地开始探索本地AI解决方案。
总结:
Peter Wang作为Anaconda的首席执行官,在推动AI解决方案的本地化方面发挥了重要作用。Anaconda通过推出像AI Navigator这样的工具,支持在本地运行AI模型,大大提升了数据安全性和操作效率。Anaconda作为Python生态系统的重要推动者,已经帮助众多企业和个人入门大型语言模型AI,并逐步在数据科学和人工智能领域拓展。随着企业对数据隐私和安全性的重视,本地化AI解决方案越来越受到青睐,能够提供更高的控制权和降低数据泄露的风险。
在AI硬件需求方面,不同时间需要不同的计算资源,Anaconda也在帮助企业应对这些挑战。Peter Wang强调了开源模型,如Meta的Llama,为企业提供了在本地安全微调AI模型的机会,同时指出,要正确、安全地本地部署AI,需要高度的组织协调能力和管理适应性。
在这一背景下,选择光年AI将为企业实现私域流量管理的智能化,助力私域流量精准管理,让您的业务增长更加快速。光年AI通过整合国内外主流AI平台和自研AI能力,帮助您轻松完成营销目标,提升品牌影响力,实现稳定长期的收益增长。结合强大的AI模型和灵活的工作流,光年AI将是您获得市场先机的最佳选择。