延迟交互模型,为什么是下一代RAG的标配?

在 RAG 系统开发中,良好的 Reranker 模型处于必不可少的环节,也总是被拿来放到各类评测当中,这是因为以向量搜索为代表的查询,会面临命中率低的问题,因此需要高级的 Reranker 模型来补救,这样就构成了以向量搜索为粗筛,以 Reranker 模型作精排的两阶段排序架构。   目前排序模型的架构主要有两类:   1. 双编码器。以 BERT 模型为例,它针对查询和文档分别编码,最后再经过一个 Pooling 层,使得输出仅包含一个向量。在查询时的 Ranking 阶段,只需要计算两个向量相似度即可,如下图所示。双编码器既可以用于 Ranking 也可以用于 Reranking 阶段,向量搜索实际上就是这种排序模型。由于双编码器针对查询和文档分别编码,因此无法捕获查询和文档的 Token 之间的复杂交互关系,在语义上会有很多损耗,但由于只需要向量搜索即可完成排序打分计算,因此执行效率非常高。 2. 交叉编码器(Cross Encoder)。Cross-Encoder 使用单编码器模型来同时编码查询和文档,它能够捕捉查询和文档之间的复杂交互关系,因此能够提供更精准的搜索排序结果。Cross-Encoder 并不输出查询和文档的 Token 所对应的向量,而是再添加一个分类器直接输出查询和文档的相似度得分。它的缺点在于,由于需要在查询时对每个文档和查询共同编码,这使得排序的速度非常慢,因此 Cross-Encoder 只能用于最终结果的重排序。例如针对初筛结果的 Top 10 做重排序,仍然需要耗时秒级才可以完成。 今年以来,另一类以 ColBERT【参考文献1】 为代表的工作,在 RAG 开发社区引起了广泛关注,如下图所示,它具备一些显著区分于以上两类排序模型的特点: 其一是相比于 Cross Encoder,ColBERT 仍采用双编码器策略,将查询和文档分别采用独立的编码器编码,因此查询的 Token 和文档的 Token 在编码时互不影响,这种分离使得文档编码可以离线处理,查询时仅针对 Query 编码,因此处理的速度大大高于 Cross Encoder;   其二是相比于双编码器,ColBERT 输出的是多向量而非单向量,这是从 Transformer 的最后输出层直接获得的,而双编码器则通过一个 Pooling 层把多个向量转成一个向量输出,因此丢失了部分语义。 在排序计算时,ColBERT 引入了延迟交互计算相似度函数,并将其命名为最大相似性(MaxSim),计算方法如下:对于每个查询 Token 的向量都要与所有文档 Token 对应的向量进行相似度计算,并跟踪每个查询 Token 的最大得分。查询和文档的总分就是这些最大余弦分数的总和。例如对于一个有 32 个 Token 向量的查询(最大查询长度为 32)和一个有 128 个 Token 的文档,需要执行 32*128 次相似性操作,如下图所示。 因此相比之下, Cross Encoder 可以称作早期交互模型 (Early Interaction Model),而以 ColBERT 为代表的工作可称为延迟交互模型(Late Interaction Model)。   下图从性能和排序质量上,分别对以上排序模型进行对比。由于延迟交互模型满足了对排序过程中查询和文档之间复杂交互的捕获,同时也避免了对文档 Token 编码的开销,因此既能保证良好的排序效果,也能实现较快的排序性能 —— 相同数据规模下, ColBERT 的效率可达 Cross Encoder 的 100 倍以上。因此延迟交互模型是一种非常有前景的排序模型,一个天然的想法是:能否在 RAG 中直接采用延迟交互模型替代向量搜索 + 精排这样的两阶段排序架构? 为此,我们需要考虑 ColBERT 工程化的一些问题:   1. ColBERT 的 MaxSim 延迟交互相似度函数,计算效率大大高于 Cross Encoder,但相比普通向量搜索,计算开销仍然很大:因为查询和文档之间的相似度,是多向量计算,因此 MaxSim 的开销是普通向量相似度计算的 M * N 倍 (M 为查询的 Token 数, N 为 文档的 Token 数)。针对这些,ColBERT 作者在 2021 年推出了 ColBERT v2 【参考文献 2】,通过 Cross Encoder 和模型蒸馏,改进了生成的 Embedding 质量,并且采用压缩技术,对生成的文档向量进行量化,从而改善 MaxSim 的计算性能。基于 ColBERT v2 包装的项目 RAGatouille 【参考文献 3】成为高质量 RAG 排序的解决方案。然而,ColBERT v2 只是一个算法库,端到端的让它在企业级 RAG 系统使用,仍然是一件困难的事情。   2. 由于 ColBERT 是预训练模型,而训练数据来自于搜索引擎的查询和返回结果,这些文本数据并不大,例如查询 Token 数 32 , 文档 Token 数 128 是典型的长度限制。因此将 ColBERT 用于真实数据时, 超过限制的长度会被截断,这对于长文档检索并不友好。 基于以上问题, 开源 AI 原生数据库 Infinity 在最新版本中提供了 Tensor 数据类型,并原生地提供端到端的 ColBERT 方案。当 Tensor 作为一种数据类型,ColBERT 编码输出的多个向量,就可以直接用一个 Tensor 来存放,因此 Tensor 之间的相似度就可以直接得出 MaxSim 打分。针对 MaxSim 计算量大的问题,Infinity 给出了 2 个方案来优化:其一种是 binary 量化,它可以让原始 Tensor 的空间只需原始尺寸的 1/32 , 但并不改变 MaxSim 计算的相对排序结果。这种方案主要用于 Reranker,因为需要根据前一阶段粗筛的结果取出对应的 Tensor 。另一种是 Tensor Index,ColBERTv2 实际上就是 ColBERT 作者推出的 Tensor Index 实现,Infinity 采用的则是 EMVB【参考文献 4】,它可以看作是 ColBERT v2 的改进,主要通过量化和预过滤技术,并在关键操作上引入 SIMD 指令来加速实现。Tensor Index 只能用来服务 Ranker 而非 Reranker。此外,针对超过 Token 限制的长文本,Infinity 引入了 Tensor Array 类型:     一篇超过 ColBERT 限制的文档,会被切分成多个段落,分别编码生成 Tensor 后,都跟原始文档保存在一行。计算 MaxSim 的时候,查询跟这些段落分别计算,然后取最大值作为整个文档的打分。如下图所示:   因此,采用 Infinity,可以端到端地引入延迟交互模型高质量地服务 RAG。那么,应该是采用 ColBERT 作为 Ranker ,还是 Reranker 呢?下边我们采用 Infinity 来在真实数据集上进行评测。由于 Infinity 的最新版本实现了有史以来最全的混合搜索方案,召回手段包含向量搜索、全文搜索、稀疏向量搜索,上文所述的 Tensor ,以及这些手段的任意组合,并且提供了多种 Reranker 手段,如 RRF,以及 ColBERT Reranker 等,因此我们在评测中包含了各种混合搜索和 Reranker 的组合。 我们采用 MLDR 数据集进行评测。MLDR 是 MTEB 【参考文献 5】用来评测 Embedding 模型质量的 benchmark 集,其中 MLDR 是其中一个数据集,全称为 Multi Long Document Retrieval,一共包含 20 万长文本数据。评测采用 BGE-M3【参考文献 6】作为 Embedding 模型,采用 Jina-ColBERT 【参考文献 7】来生成 Tensor,评测脚本也放到了 Infinity 仓库【参考文献 8】。 评测一:ColBERT 作为 Reranker 是否有效。将 20 万 MLDR 数据分别用 BGE-M3 生成稠密向量和稀疏向量,并插入到 Infinity 数据库中,数据库包含 4 列,分别保存原始文本,向量,稀疏向量,以及 Tensor,并分别构建相应全文索引、向量索引、稀疏向量索引。评测包含所有的召回组合,包含单路召回、双路召回,以及三路召回,如下所示: 评测指标采用 nDCG@10。其他参数:采用 RRF Reranker 时粗筛返回的 Top N = 1000 ,查询累计共有 800 条,平均每条查询长度在 10 个 token 左右。   从图中看到,所有的召回方案,在采用了 ColBERT Reranker 之后,都有明显的效果提升。ColBERT 作为一种延迟交互模型,它可以提供跟在 MTEB 的 Reranker 排行榜上位居前列相提并论的排序质量,但是性能却是它们的 100 倍,所以可以在更大的范围内进行重排序。图中给出的结果是针对 Top 100 进行 Reranker,而采用 Top 1000 进行 ColBERT 重排序,数值没有明显变化,性能还有明显下降,因此不推荐采用。传统上采用基于 Cross Encoder 的外部 Reranker ,Top 10 就会有秒级的延迟,而 Infinity 内部实现了高性能的 ColBERT Reranker,即使针对 Top 100 甚至 Top 1000 做重排序,也不会影响用户体验,而召回的范围却大大增加,因此可以显著改进最终的排序效果。此外,这种 ColBERT Reranker 计算只需在纯 CPU 架构上即可运行,这也大大降低了部署的成本。 评测二:对比基于 ColBERT 作为 Ranker 而不是 Reranker。因此,这时需要针对 Tensor 这列数据构建 Tensor Index。同时,为了评估 Tensor Index 引入的精度损耗,还进行了暴力搜索。   可以看到,相比 Reranker ,即使是采用没有精度损失的暴力搜索,也没有显著的提升,而采用基于 Tensor Index 的排序质量甚至低于采用 Reranker。然而,作为 Ranker 的查询时间却要慢得多:MLDR 数据集包含 20 万文档数据,大约 2GB 左右,采用 Jina-ColBERT 转成 Tensor 数据后,高达 320 G,这是因为 Tensor 数据类型是把一篇文档的每个 Token 对应的向量都要保存下来, ColBERT 模型的维度是 128 维,因此默认数据量会膨胀 2 个数量级,即使构建了 Tensor Index,在查询这么多数据的时候,也需要平均 7s 才能返回一个查询,但得到的结果却并没有更好。 因此,很显然,ColBERT 作为 Reranker 的收益比作为 Ranker 要高得多。当前最佳的 RAG 检索方案,是在 3 路混合搜索(全文搜索 + 向量 + 稀疏向量)的基础上加 ColBERT Reranker。有伙伴可能会问了,为了采用 ColBERT Reranker,就需要增加单独的 Tensor 列,并且该列会相比原始数据集膨胀 2 个数量级,这样做是否值得?首先:Infinity 针对 Tensor 提供了 Binary 量化手段,作为 Reranker,它并不影响排序结果很多,但却可以让最终的数据仅有原始 Tensor 大小的 1/32。其次,即便如此,也会有人认为这样的开销过高。然而站在使用者的视角,用更多的存储,来换取更高的排序质量和更廉价的成本(排序过程无需 GPU),这样做依然是非常值得的。最后,相信很快就可以推出效果上略有下降,但存储开销大大降低的 Late Interaction 模型,作为一款 Data Infra 基础设施, 对这些变化保持透明,把这些 Trade Off 交给用户是明智的选择。 以上是基于 Infinity 在 MLDR 数据集上的多路召回评测,在其他数据集的评测结果,可能会有所不同,但整体上结论不会变 —— 3 路混合搜索 + 基于 Tensor 的重排序,是当前搜索结果质量最高的召回手段。 由此可以看到,ColBERT 及其延迟交互模型,在 RAG 场景具有很大的应用价值,以上是在文本对话内容生成的相关工作,近期,延迟交互模型在多模态场景,也得到了 SOTA 的结果。这就是 ColPali【参考文献 9】,它改变了 RAG 的工作流程,如下图所示:   RAG 在面临复杂格式文档时,当下的 SOTA ,是采用文档识别模型,对文档的布局做识别,并针对识别出的部分结构,例如图表,图片等,再分别调用相应的模型,将它们转化为对应的文字,再用各种格式保存到 RAG 配套的数据库中。而 ColPali 则省掉了这些步骤,它直接采用多模态模型生成 Embedding 内容。提问的时候,可以直接针对文档中的图表进行回答:   ColPali 模型的训练跟 ColBERT 类似,也是采用查询 – 文档页面对的形式,从而捕获查询和文档多模态数据之间的语义关联,只是采用 PaliGemma 【参考文献 10】用来生成多模态 Embedding 。相比没有采用 Late Interaction 机制但同样采用 PaliGemma 生成 Embedding 的方案 BiPali,在 nDCG@5 的评测指标对比是 81.3 vs 58.8,这种差距是就是 “极好” 和 “压根不能工作” 的区别。   因此,尽管 ColBERT 出现至今已有 4 年时间,可是 Late Interaction 模型在 RAG 的应用才刚刚开始,它必将扩大 RAG 的使用场景,在包含多模态在内的复杂 RAG 场景提供高质量的语义召回。而 Infinity 已经为它的端到端应用做好了准备,欢迎关注和 Star Infinity,https://github.com/infiniflow/infinity, 致力于成为最好的 AI 原生数据库! 参考文献  1. Colbert: Efficient and effective passage search via contextualized late interaction over bert, SIGIR 2020. 2. Colbertv2: Effective and efficient retrieval via lightweight late interaction, arXiv:2112.01488, 2021. 3. RAGatouille https://github.com/bclavie/RAGatouille  4. Efficient Multi-vector Dense Retrieval with Bit Vectors, ECIR 2024. 5. https://huggingface.co/mteb 6. https://huggingface.co/BAAI/bge-m3 7. https://huggingface.co/jinaai/jina-colbert-v1-en 8. https://github.com/infiniflow/infinity/tree/main/python/benchmark/mldr_benchmark 9. ColPali: Efficient Document Retrieval with Vision Language Models, arXiv:2407.01449, 2024. 10. https://github.com/google-research/big_vision/tree/main/big_vision/configs/proj/paligemma

阿里国际推出首个专业版AI Search,为什么它会是下一个B2B谷歌?

  经历过「千模大战」的喧嚣,一年半之后,生成式 AI 的应用层创新终于步入爆发期。 年初的 Sora 激起一阵 AI + 视频生成的浪潮。涟漪未散,OpenAI 新的 SearchGPT 又燃起了 AI + 搜索的战火。 AI + 搜索,这其实是生成式 AI 技术浪潮刚涌现时,大部分人对其应用的想象:改变传统的搜索引擎。这一战场上,Perplexity 在另起炉灶,Google 想着自我革新,Bing 忙着乘势而起。 如今,阿里国际也宣布入局,直接带来了一款新产品。但与其它所有人都不同,阿里国际的 AI 搜索切入了一个空白地带:涉及更多行业 Know-How 的深度信息搜索领域。阿里国际选择了自己最擅长的「全球电商」行业,意在改变全球采购流程,使之更加直观和高效。 7 月 31 日在法国巴黎举办的发布会上,阿里国际官宣了全球首个 AI 驱动的 B2B 采购搜索引擎。据了解,这款 AI 采购搜索引擎会在今年 9 月正式亮相。 在巴黎的发布会现场,阿里国际副总裁张阔展示了这款新产品。它能主动理解采购者的自然语言,并转化为专业的采购请求;还能根据全球市场数据预测需求、提供建议,实现更精准的匹配。   业内认为,这将成为全球贸易领域的「下一个 Google」。 「新的 AI 搜索引擎并不是在传统的被动搜索的基础上做提升,这是全新的全球贸易采购体验。」张阔表示。 对于从事采购的中小企业主来说,它首先能听懂你的「大白话」,自动转译成专业采购术语,然后跟你一步步对话,并智能整合全网信息,化被动搜索为主动理解,更精准地理解甚至预测你的需求。 同时,它重构了信息呈现的方式,能主动帮你做信息比较,推荐最合适的供应商。 最后,它还能提供更完整的采购服务,最终帮你完整贸易的全部流程。 如果说过去的 Google,还只是在被动应答,把网页信息跟你输入的关键词匹配,那这一新的 AI 采购搜索引擎,则是在真正理解商品的信息、理解企业的需求,然后主动完成精准匹配。 Sora 的发布,曾让大家惊叹「AI 开始理解并生成真实的物理世界」,那这一 AI 搜索引擎,似乎开始理解现实世界的商业逻辑了? AI 让「隔行」不再「如隔山」 自互联网兴起的几十年来,「搜索引擎」一直是大众接触各类信息的主流方式。 但我们知道,以传统搜索引擎获取专业领域信息的成本很高,在广袤的互联网上寻找专业知识宛如「大海捞针」,多次尝试之后才能接近想要的结果。 对于跨境电商的买家与卖家更是如此,发现商机、确定采购渠道等环节的工作,耗时耗力且涉及繁琐的数据分类过程,对于人类来说本就是一套很复杂的知识体系。 如果不是本身就具备一定专业知识,甚至连搜什么都不知道。这可能就是传统上「隔行如隔山」的含义。 人们需要能帮忙快捷找到更深度、更有价值的信息、以及更懂自身需求的 AI Search 工具。 擅长指令遵循、长上下文总结、内容生成的大模型技术,成为了撬动这场搜索变革的关键力量。 简单来说,阿里国际推出的这款 AI 采购搜索引擎就像是为通用模型注入了跨境电商领域的专家知识,提供了一种「直观而自然的知识涌现方式」。他们的 AI 产品学习了 10 亿商品和产业知识,这几乎覆盖了全球最大的 B2B 贸易领域的知识库。 在巴黎的发布会现场,阿里国际展示了一位前职业网球运动员西蒙娜的例子。她在退役后发现新兴的匹克球运动很火,想就此开启创业。 但缺乏专业知识,从没接触过全球采购的她,第一步该做些什么呢? 答案是,打开阿里国际的这个 AI 搜索引擎,就像聊天一样告诉 AI 自己的想法。 AI 采购搜索引擎就能会根据对全球所有跟匹克球相关的市场洞察,做深入分析,推荐多个可能的创业方向,比如匹克球拍、训练鞋等等。还全面地列出各个指标:竞争激烈程度、淡旺季、市场需求量、价格段…… 看完 AI 调研出来的情况,西蒙娜选择了从匹克球训练鞋入手,并根据自己打网球多年的经验,给它设计的训练鞋提出更多要求:要能够调节训练模式。 当然提出这个想法时,西蒙娜压根没有运动鞋制造业的经验,也不知道训练模式的调节该用什么方式实现。 不要紧,AI 会主动解读:「你其实是要需要找一家能在球鞋上增加配重块的供应商」 很快,全世界最擅长做这类鞋的供应商就展现在西蒙娜眼前了:   在此之后,AI 还能多维度地理解它推荐的各类商品、供应商的信息,一键比较不同供应的各个指标,这下西蒙娜选起来就简单多了。 别小瞧这一步,要是放在以往,靠传统的搜索引擎,创业者或采购者要想完成这一步,就得点开一个个网页,在浩如烟海的信息里寻找想要的商品信息,再记录下来逐一比较。 由此,AI Search 的优势尽数显现,用户获取有效答案的成本,能够比过去下降几个数量级。 此外,这款 AI 采购搜索引擎还将在信息检索之外提供更完整的智能采购服务。 它会借助阿里国际在数字外贸领域 25 年的深耕和积累,AI 采购搜索引擎也将融合交易支付、物流履约等全球贸易各个环节中的专业知识,像一个真正专业的人类采购员一样,帮忙完成沟通总结、跟进交期等等全方位服务。   全球电商是 AI 最好的用武之地 一直以来,全球电商都是 AI 技术最好的应用方向之一。电商行业中丰富的场景,是 AI 绝佳的用武之地。 但阿里国际推出的这款 AI 采购搜索引擎跟以往简单的提效工具截然不同,某种程度上说,它已经不是一个单纯辅助简单工作的 AI,而是太像一位「超级个人助理」了。 这种能力的实现,与生成式 AI 时代当下的多项技术进步密切相关。 众所周知,大模型预训练数据的最常用来源是公共互联网,很多专业领域信息存在过时和缺失问题。 为了解决这个问题,在通用大模型的基础上,业界往往会采用监督式微调来更新模型知识以提升具体能力。RAG(检索增强生成)也是另外一种有效的方法。简单来说,RAG 就是先检索相关文档,然后将其用作额外上下文来执行生成,可以提供对更大知识库的访问。 据了解,阿里国际此次发布的 AI 采购搜索引擎在训练阶段学习了全网超过 10 亿条商品和产业信息,尤其是专业的产品知识。这也是为什么它能精准地将朴实的「大白话」转化为电商领域的专业词汇,并且完成深度的筛选工作,帮助商家完成部分专业知识的短板。 对阿里国际来说,以生成式 AI 技术带来全新的跨境电商体验,将是其全球业务重要的未来增长点。此次 AI 采购搜索引擎的发布,还只是其中一环。 早在去年 11 月,阿里国际就发布了首个 AI 产品「Aidge」,开放了 15 个 API 和多个 Agent 框架,支持 18 种语言,帮助全球商家在不同国家市场经营中,克服语言和文化障碍,提升经营效果。 过去一年,阿里国际在 40 多个场景里测试了 AI 能力,服务了超过 50 万中小商家,有 1 亿款商品得到优化。平均每两个月,商家对于 AI 的调用量就会翻一倍,目前已达日均 5000 万次的规模。 持续的 AI 投入、丰富的 AI 场景和激增的 AI 需求,其实是支撑现在阿里国际推出全新的 AI 采购搜索引擎、以真正 AI 原生的方式改变全球贸易体验的核心要素。 一个个 AI 时代的「专业版 Google」 都要来了吗? 生成式 AI 席卷全球之时,业内曾有一个发人深省的观点:所有的应用都值得用大模型重做一遍。 作为被寄予厚望的「重做」方向之一,「AI Search」对用户体验提升的价值,如今已在实践中被充分验证。从内容推荐到知识整合,任何一个领域的门槛都在持续降低,让普通人也能更直接、轻松地获取信息。 而面向专业赛道「重做」之后,AI Search 的落地价值也更加具像化。阿里国际发布的这款 AI 采购搜索引擎,率先绘制出了「AI 时代 B2B Google」的落地形态,为生成式 AI 技术在各个专业领域的应用打了个样。 随着更多细分领域玩家的加入,可以想见的是,未来每个行业都会有自己的「Google」。 而信息获取方式的变革,带来的影响其实会是本质性的。一场因搜索引发的变革或许会比我们想象中更快到来。

李飞飞亲自撰文,数十名科学家签署联名信,反对加州AI限制法案

AI真的已经危险到要如此监管的地步了吗?    在创新的热土硅谷,李飞飞、吴恩达等 AI 科学家正在与监管部门展开一场关于安全与创新的拉锯战。 这场拉锯战的核心是一个名叫 SB-1047 的法案。该法案的全称是「Safe and Secure Innovation for Frontier Artificial Intelligence Act(《前沿人工智能模型安全创新法案》)」,试图为高风险的 AI 模型建立明确的安全标准,以防止其被滥用或引发灾难性后果。  该法案于今年 2 月份在参议院被提出,随后引起了很大的争议。很多科学家认为,法案的条款过于不合理,将对科技创新造成毁灭性的影响。     法案链接:https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047 具体来说,该法案旨在从模型层面对人工智能进行监管,适用于在特定计算和成本阈值之上训练的模型。 模型覆盖范围如下: 1、使用超过 10^26 次整数或浮点运算的计算能力进行训练的人工智能模型,其成本超过一亿美元(100,000,000 美元),该成本是根据开发者合理评估的训练开始时云计算的平均市场价格计算得出的。   2、利用等于或大于 10^25 次整数或浮点运算三倍的计算能力,对范围内的模型进行微调而创建的人工智能模型。 这一范围基本覆盖了现在市面上所有主流的大型模型。如果法案通过,这些模型都将被定义为存在「潜在危险」或需要额外监督。 法案还要求模型开发者对其模型的下游使用或修改承担法律责任。在训练开始之前,开发人员需要证明他们的模型不会启用或提供「危险功能」,并实施一系列保护措施来防止此类使用。这将阻碍开源社区的发展。 监督新法律执行的将是一个「前沿模型部门(frontier model division)」,这是一个新成立的监督和监管机构。该机构将制定安全标准并就人工智能法律提供建议,向该机构歪曲模型的功能可能会使开发人员因伪证而入狱。 法案中还加入了吹哨人保护条款,保护和鼓励 AI 开发实体内部的举报者,确保员工可以在不受报复的情况下报告企业的不合规情况。  如果法案获得通过,州长 Gavin Newsom 的一个签名就可以将其纳入加州法律。a16z 普通合伙人 Anjney Midha 表示,如果这项法案在加州获得通过,将为其他州树立先例,并在美国国内外产生连锁反应 —— 本质上对创新状况带来巨大的蝴蝶效应。 在太平洋夏令时间 8 月 7 日早晨,相关部门将举行关于该法案的听证会。留给科学家们的抗议时间已经不多了。因此,李飞飞亲自撰文,陈明法案利害。还有些科学家正在签署一封联名信,以阻止法案通过。   李飞飞的文章发表在《财富》(Fortune)网站上。 李飞飞撰文抨击 SB-1047 李飞飞在文章中表示:「加州的 SB-1047 将产生重大而意想不到的后果。如果通过成为法律,SB-1047 将损害正在萌芽的人工智能生态系统。SB-1047 将不必要地惩罚开发人员,扼杀开源社区,并阻碍人工智能学术研究,同时无法解决其旨在解决的真正问题。」 她写道: 首先,SB-1047 将过度惩罚开发者并扼杀创新。如果人工智能模型被滥用,SB-1047 要求责任方和该模型的原始开发者承担责任。每个人工智能开发人员(尤其是崭露头角的程序员和企业家)不可能预测到其模型的每种可能用途。SB-1047 将迫使开发人员退步并采取防御行动 —— 这正是我们试图避免的。  其次,SB-1047 将束缚开源开发。SB-1047 要求所有超过特定阈值的模型都包含「终止开关」,这是一种可以随时关闭程序的机制。如果开发人员担心他们下载和构建的程序会被删除,他们在编写代码和协作方面就会更加犹豫。这个终止开关将摧毁开源社区,这是无数创新的源泉。其影响不限于人工智能领域,而是在从 GPS 到 MRI 到互联网本身的各个领域。 第三,SB-1047 将削弱公共部门和学术人工智能研究。开源开发对于私营部门很重要,但对于学术界也至关重要。如果没有协作和对模型数据的访问,学术界就无法进步。如果我们的机构无法获得适当的模型和数据,我们将如何培训下一代人工智能领导者?终止开关甚至会进一步削弱学生和研究人员的努力,与大型科技公司相比,他们在数据和计算方面已经处于劣势。当我们应该加倍加大公共部门人工智能投资时,SB-1047 将为学术人工智能敲响丧钟。 最令人担忧的是,该法案并未解决人工智能进步的潜在危害,包括偏见和深度伪造(deepfake)等等。相反,SB-1047 设置了一个任意阈值,调节使用一定计算能力或花费 1 亿美元训练的模型。这项措施远非提供保障,只会限制包括学术界在内的跨部门创新。如今,学术人工智能模型低于这一门槛,但如果我们要重新平衡私营和公共部门人工智能的投资,学术界将受到 SB-1047 的监管。我们的人工智能生态系统将会因此而变得更糟。 SB-1047 的限制过于武断,我们必须采取相反的做法。 我并不反对人工智能治理。立法对于人工智能的安全有效发展至关重要。但人工智能政策必须赋能开源开发,提出统一且合理的规则,并建立消费者信心。SB-1047 未达到这些标准。 数十位科学家联名反对 针对 SB-1047,除了李飞飞,由加州大学 7 个校区的师生以及来自其他 20 多个机构的研究人员组成的团体也在积极行动。他们共同起草并签署了一封反对 SB-1047 的公开信,从研究者的角度出发,陈述该法案对加州人工智能研究和教育目标的损害。   联名信从以下几方面展开论述 SB-1047 的不合理性: 1、法案会给开源模型的发布带来「寒蝉效应」,从而损害研究 法案中要求对「前沿模型」进行「安全审核」和具备「完全关闭」能力,可能会严重阻碍开源和开放权重模型的发布。这些严格的规定对于私有实体控制的专有模型来说可能更易于实现,而对于非营利组织或大学联盟使用的开放模型则较为困难。法案中关于安全展示和审核的条款表述不够具体,依赖于可能尚未存在且可能缺乏科学严谨性的测试。这种审计的潜在成本对于有盈利产品的商业实体来说可能容易承担,但对于像 Meta 的 LLaMA 系列这样的商业实体的科学性开放发布,或是由非营利组织或大学联盟训练的开放模型,情况可能并非如此。 由于这些繁琐的限制,开源模型的开发者可能选择在加州或美国之外构建系统,并在避免责任的前提下发布其模型。在这种情况下,不顾合规的私人行为者可能会秘密使用这些模型,而受到公共工作性质约束的学术研究人员将被排除在外,这促使他们更改研究主题或转移到不侵犯其学术自由的司法管辖区。开源模型的可获取性对于现代学术 AI 研究至关重要,因为它们使学术界能够探索模型的工作原理、训练过程中的能力提升以及如何进行改进和破解。  2、人工智能风险预测与「能力」评估存在不科学性 作为人工智能、机器学习和自然语言处理领域的专家,这些研究者强调:SB-1047 中提到的评估模型风险的建议方法非常值得怀疑。科学界就语言模型或其他前沿人工智能系统是否以及如何对公众构成威胁尚未达成共识。 3、对开源模型的保护不足  尽管法案提到未来可能对开源模型提供特例,但由于参数数量的快速增长和计算成本的降低,现有的保护措施可能难以持续。在没有强有力的保护措施的情况下,这些模型面临的后果可能很快就会显现。此外,性能相当的小型模型相比大型模型需要更高的计算成本。因此,法案中的修正案预计无法缓解对开源模型发布的负面影响,而严格的报告和审核要求还将不必要地影响研究活动。 4、对学生的就业安置和职业成果的担忧 SB-1047 未来可能会阻碍对人工智能感兴趣的学生进一步学习相关知识,甚至可能会阻止新人才进入计算机科学等关键领域。此外,随着科技行业从大公司向初创公司的转变,额外的监管障碍可能会通过支持更大、更好的企业来削弱新兴创新者。这种转变可能会缩窄学生的职业道路。 联名信部分学者签名。 除了公开信,还有一些研究者选择在社交媒体发声。其中,一位系统生物学家指出,SB-1047 就像在我们还不知道病原体是什么、何时会感染我们以及感染会发生在哪里之前就激活了炎症反应。 此前,吴恩达也多次就此事发声。他认为,监管机构应该监管应用而不是技术。例如,电动机就是一项技术。当我们将其放入搅拌机、电动汽车、透析机或制导炸弹中时,它就成为了一种应用。想象一下,如果法律规定,当任何人以有害的方式使用电机时,电机制造商都要承担责任。那电机制造商要么停产,要么将电机制造得非常小,以至于对大多数应用来说毫无用处。如果我们通过这样的法律,可能会阻止人们制造炸弹,但我们也会失去搅拌机、电动汽车和透析机。相反,如果我们关注特定的应用,就可以更合理地评估风险并判断如何确保它们的安全,甚至禁止某些类型的应用。   AI 真的已经危险到要如此监管的地步了吗?对此,你怎么看?   参考链接:https://a16z.com/sb-1047-what-you-need-to-know-with-anjney-midha/ https://drive.google.com/file/d/1E2yDGXryPhhlwS4OdkzMpNeaG5r6_Jxa/view https://fortune.com/2024/08/06/godmother-of-ai-says-californias-ai-bill-will-harm-us-ecosystem-tech-politics/?abc123

AI手机,苹果摸着安卓过河?

深度体验五大国产旗舰AI手机,能碾压迟到的苹果吗? 作者 |  云鹏 编辑 |  心缘 做AI,苹果摸着安卓过河?未必。 智东西8月1日报道,最近,苹果正式发布iOS 18.1开发者测试版,苹果画的“Apple Intelligence”大饼,总算是先让开发者们尝到了一小口。 Siri告别“智障”,语言理解能力大幅提升,写作工具、图片工具这些发布会上的亮眼功能也部分在苹果系统App中落地。 苹果的开发者们,似乎已经提前“开香槟”了,相关上手视频直接在科技圈炸了锅。 为什么苹果AI如此受大家关注?这离不开最近半年多AI手机圈的火爆。 当智能手机全面转向“AI手机”时,所有厂商都在紧锣密鼓、加班加点地上马新功能,生怕掉队一丝一毫。 从2023年8月至今,短短不到一年的时间,华为、小米、OPPO、vivo、荣耀五大中国手机巨头都已经完成了自家AI手机操作系统多个版本的迭代,各类基于端侧、云侧AI大模型实现的AI功能如雨后春笋般涌现。 ▲安卓旗舰机上的各类生成式AI功能 文本生成、图像生成、AI摘要、AI总结、AI搜图,更自然的互动对话、更出色的意图识别和理解能力,半年前还新鲜的AI功能如今已经成为AI手机的“标配”。 相比之下,苹果发布Apple Intelligence带来的升级,似乎并没有满足业内和消费者们对于苹果的期待。 因此,当很多人看到苹果AI之时,都会下意识的想到:安卓早就做过了。因此有一个结论逐渐被很多人所提及或认可:做AI手机,苹果是在摸着安卓过河。 事实真的是如此吗?当我们逐帧拆解苹果在WWDC上演示的一系列AI功能,并尝试在五大国产安卓旗舰机中“对号入座”时,我们发现一个有些“唱反调”的事实:大部分苹果的AI功能,安卓阵营都做不到。 ▲苹果VS安卓,苹果WWDC关键AI功能对比 同样的功能,安卓即使可以通过其他方式变向实现,从根本的实现逻辑上与苹果也有所区别。 ▲智东西深度体验国产五大旗舰机的AI功能,从左至右依次为:vivo X100 Ultra、小米14 Ultra、OPPO Find X7 Ultra、华为Pura 70 Pro+、荣耀Magic6 Pro 做AI手机,苹果绝不是在摸着安卓过河,苹果做AI的思路和方式,甚至还有很多值得安卓阵营学习的地方。 前不久三星在发布会上一系列AI功能对苹果的像素级“模仿”,恰恰也证明了苹果方向的正确性。 与其高歌安卓阵营在AI功能落地速度上的“遥遥领先”,不如将苹果AI吃透,将苹果AI与安卓的核心差异点摸清,取长补短,为我所用。 AI手机的竞赛绝不是百米赛跑,一定是一场“马拉松”。第一个跑的不一定第一个到达终点,谁的后劲更足,才是重头戏。 AI手机这场精彩的较量,选手们才刚刚到齐。 本文福利:AI手机高渗透率有望推动AI手机芯片发展。推荐报告《AI手机芯片有望成为最大端侧芯片市场》,可在公众号聊天栏回复关键词【智东西423】获取。   01. 都是生成式文本图像能力苹果赢在了“系统级”整合   在对比苹果AI和安卓AI之前,我们要先弄清一个关键问题——苹果AI到底是啥? 在逐帧拆解苹果WWDC关于AI的部分后,我们可以清晰地梳理出苹果AI的五个关键能力组成部分: 1、理解生成语言和图像 2、跨应用操作能力 3、个性化专属能力 4、智能体 5、云端大模型调用 其中最重要的是前四个部分,尤其是智能体Siri的重要升级。我们这次暂时只对比前四个。 有一个结论要明确,苹果AI绝对不是“OpenAI换皮”。 苹果做AI,最最最不想做的一件事,就是调用ChatGPT。 用通俗的话来讲,在苹果的AI体系中,只要是能端侧解决的,坚决不能上云,只有实在没辙了的时候,才会“不情愿”地调用一下云侧大模型,调用时还要“层层设防”,生怕用户一个不留神交出了自己的敏感数据或信息。 苹果在发布会上透露,苹果在端侧跑了三四十个模型,这些模型服务于各类功能,而这些功能融入在系统体验的各个环节。 这就是在对比过程中我们感受到安卓与苹果差距最大的一点——端侧系统级AI体验,这也是我们对比分析的重点。 到底,什么是系统级?什么是系统级AI? 现在很多国内的安卓厂商也在强调自己的AI功能并不是“下载一个App”那么简单,已经是与各个应用相结合了,但从实际“疗效”来看,跟苹果的逻辑还有所不同。 比如在理解和生成语言、图像这件事上,苹果的逻辑是把这种能力直接润物细无声地做到日常体验的各个环节。 在需要的时候可以迅速调用、比较无感,操作符合直觉,几乎没有学习成本。 安卓阵营的许多手机都推出了各类文本生成和总结的功能,比如我们可以呼出智能助手,然后让它帮我们生成一段精彩的文案,或者帮我们总结摘要一段通话录音。 ▲安卓旗舰机在笔记App中加入的AI文本创作功能 当然,我们也可以直接调用各家的智能助手,将手机里的文档发给它,让它帮我们总结重点。 这里有没有发现什么特点?这个功能或者服务的发起者,仍然是“我们”,也就是人与AI的交互,仍然是人要主动发起。 相比之下,苹果在理解和生成语言、图像环节是怎么做的? 在锁屏通知显示环节,AI会直接理解你收到的通知的文本内容,判断重要性,并将重要的应用通知前置。 虽然安卓手机可以手动设置重要应用的通知置顶,但跟苹果这种AI主动判断完全不同。 在显示通知的同时,苹果AI会把通知的内容以摘要的形式简要呈现出来,方便我们判断信息的重要性,邮件也是如此。 跟显示通知很类似,苹果AI还可以直接把我们收到的邮件中的要点信息提炼并放在邮件的开头。 这一切不需要复杂的操作,不需要选中文本内容,也不需要下载某个App。苹果很多的AI功能,会给人一种自然而然的感觉: 当你觉得某个地方如果AI帮我做一下就好了,苹果AI已经做好了放在那里供你参考使用。 你不需要思考我应该调用什么工具,我应该打开什么软件,我应该如何召唤出语音助手帮我做这件事,AI都已经“无处不在”地帮你做好了。 这,是苹果AI最显著的特点之一,这也是“系统级AI”的典型体现之一。 其实这种“系统级AI”能力,在苹果AI处理文本、图像方面都有鲜明的体现。 苹果在发布会上发布了两个工具,一个是书写工具,一个是图像生成工具,但大家千万不要觉得这个“工具”就等于某个App,我们需要打开某个App才能使用这个功能,并非如此。 ▲书写工具 形象地来说,使用苹果的这个AI功能,就好像我们用电脑办公,点击鼠标右键一样自然。 苹果特别在发布会上强调说,不论是书写工具还是图像生成工具,都是“全系统适用”。 简单来说,文字工具可以用在任何有文字的地方,从邮件、备忘录、浏览器、Pages、Keynote到各类三方App,图像生成工具同样如此。 我们打开一个活动邀请的邮件,AI会自动识别邀请函的内容、需要我们回答的问题并提供智能选项,我们是接受邀请还是拒绝?选择后AI就会快速生成回复邮件的草稿。 我们只要选中邮件文字内容,书写校对功能就会弹出来,我们可以对内容进行润色,更换不同的语气口吻。 一切流程都很自然,我们想到了,AI就已经做到了。 安卓阵营这边,其实大部分厂商很早就落地了各种文本生成、文案创作类的功能,比如帮我写一个商品评价、写一个会议邀请的邮件、写一个简短的自我介绍或是一个临场演讲发言。 如果就文案创作的丰富程度来说,苹果似乎还要稍逊一筹。 ▲安卓旗舰机中的各类文本生成、文案创作功能 但问题在于,这些功能往往藏在一些App中,或者需要我们调出智能助手,将我们需要让AI总结、重写、润色的内容先发给助手,助手再去解读。 有些安卓机型的文本润色重写功能做在了“笔记”应用中,但实际上这可能是一个我们平时生活中非常“低频”打开的一个应用。 当然,一些安卓厂商将AI文案的写作、润色这样的功能做到了输入法里,相对来说,这还算是一个比较“系统级”的App。 ▲部分安卓旗舰机将AI写作功能做到了输入法中 从最终结果来看,安卓这边都可以变向,或者多几个步骤实现同样的生成式文字处理功能,但跟苹果AI所做的“系统级AI”相比,并不相同。 图像也是如此。 生成式图像处理一直是安卓阵营津津乐道的一大优势项目,很早安卓这边就推出了类似一句话生成图像、图像风格优化、AI抠图、AI路人消除这样的功能。 今天一提到AI手机,很多普通人的第一反应就是AI消除、AI生图。 相比之下,苹果在发布会上强调的AI生图能力有些不同: 苹果的AI可以在聊天中随时随地根据朋友的照片生成一张带有特定氛围的卡通图片。 同样是在聊天场景中,我们可以随时让苹果AI根据我们的描述生成一张表情图。 AI还可以直接识别我们选中的联系人头像,根据手机中这位联系人的照片生成相应的表情包图像,这一切都不涉及任何应用跳转。 AI可以在你记笔记的时候随时根据你记录的文字内容生成相关的图像。 比如根据你记的建筑学笔记生成一副建筑的图像,并且图像中哪些建筑特点是根据哪些文字生成的都可以一目了然的直观呈现。 苹果的AI图像生成功能同样是做到了“系统级”。 在我们使用各类应用时,只要我们需要生成图像,生成图像的功能就可以马上发挥作用,不需要我们跳转到另一个地方,去生成一个图片,再复制粘贴回来。 苹果与安卓的逻辑依然不同。 当然,像AI路人消除、AI照片搜索、AI视频生成,以及常规AI文生图这些功能都是苹果AI和安卓AI通用的能力,大家也看的很多了,这方面差距并不大,我们不必赘述。 但我们需要关注的是这些功能具体的应用效果,比如视频生成的精美程度,是否传达出主题,这些有待苹果AI正式落地后进一步关注。 系统级AI是什么?看下来有几个关键词: 自然而然、随时随地、操作极为简单、主动提供、高可用性。这就是苹果的系统级AI。   02. 苹果与安卓达成共识:打造理解个人情境、个性化专属AI   在分析系统级AI时,有一个很重要的AI特性,是“主动性”,这个特性的实现,牵涉到苹果AI的另一层关键优势:对个人情境的理解。 用苹果高级副总裁Craig的话来说,这是个人智能化极为关键的要素。 对于个人情境的理解与AI的个性化专属能力也紧密相关,简单来说,就是AI真的要懂你、了解你。 什么叫懂你、了解你? 苹果的AI,可以给你的照片、日历日程、各类文件、往来消息和邮件中的信息等内容创建语义索引,相当于你的一切个人化信息都被AI所理解、记住了,你再让AI办事的时候,AI就可以很自然的利用这些信息。 AI认识你,认识你的朋友、家人,AI了解你最近的日程、手机里储存了哪些重要的文件。 比如在你填表格需要输入某个证件号码的时候,AI就可以直接帮你找到那张证件的照片并自动将驾照编号提取出来,填入表格。 苹果高管在发布会上举了一个形象的例子: 当一个临时会议突然出现,你不知道还能否赶上晚上女儿的音乐会时,AI可以帮你做出判断,AI会知道你今天的日程安排,知道你的女儿是谁,知道你女儿前几天发给你的音乐会海报,提取其中的时间地点信息,AI也会知道你的公司在哪里,从而规划路线和时间。 目前,这些安卓阵营暂时都做不到。 这一切,都是基于AI需要真的了解你。 只有真正了解你,能够理解你的个人情境,才能说得上是个性化专属的AI,也就是我们梦想中的“贾维斯”。 在安卓这边,AI对我们的了解更多停留在我们每天几点通常会使用哪个应用,然后在对应时间段就会将应用建议放在桌面的醒目位置这样的水平。 当然,我们也可以在图库中自定义联系人,定义谁是妈妈、谁是妻子,AI就可以搜到“妈妈的照片”、“妻子的照片”。 ▲安卓旗舰机相机App中的人物自定义功能 苹果这种个人情境理解能力,实际上在前文提到的生成式文本、图像功能中也有体现。 比如AI会基于你当前跟朋友聊天的情境智能推荐生成相应的图片,比如AI会知道你跟哪个朋友在聊天,你们聊的话题是轻松愉悦的,还是紧张压抑的,进而推荐相应的图片生成提示词供你选择。 在苹果看来,AI唯有真正可以理解你的个人情境,才真正变得有价值。 这话诚然不假,但实现起来却并不容易,信息需要打破应用的边界,为AI所掌控,AI智能体掌握着所有关键信息,同时知道你当下在做什么、需要什么,并自然而然地提供相应的AI服务和建议。 虽然安卓阵营也一直在向这个方向努力,但不得不说,目前绝大部分AI功能,人都需要率先发出请求,并且在操作的繁琐程度上也要超过苹果,AI的主动性体现,仍然较少。 总体来看,安卓阵营目前的“个性化AI”,更像是“人工个性化”,我们仍然需要手动设置大量的自定义信息,才可以让AI获得更多的信息,而不是AI主动对我们的信息进行学习、理解,建立语义索引。 这跟苹果AI是有本质区别的。 ▲安卓旗舰机中对于个人信息与偏好的设置界面   03. AI跨应用操作成主流国内应用生态繁杂或成最大挑战   正如前文所说,苹果AI实现个人情境理解的一大前提就是信息不在停留于每个角落、每个应用中,而是打破边界,实现“流动”,为AI所用,这其实就牵涉到了苹果AI的另一大关键能力——跨应用的操作。 在跨应用操作方面,安卓阵营的确已经做出了不少成果。 比如我们可以很轻松地让AI找到手机中关于某些内容或主题的文件,找到某位家人或朋友的照片,找到一首特定的歌曲。 ▲让智能助手找文件 我们还可以将找到的文档发送给微信中的某位联系人,或者直接让AI给我们的某个微信联系人发一个指定金额的红包。 ▲给指定微信联系人发指定金额红包 在这些方面,安卓AI与苹果AI的差距并不大。 这里有一个问题需要注意,也就是我们前文所提到的“应用生态存在巨大差异”的问题。 在海外市场,AI功能与苹果系统级应用的结合是极具价值的。因为绝大部分苹果用户都被系统应用生态强绑定,是真的在用这些App。 相比之下,中国安卓手机厂商面临的最大挑战之一,恰恰就是应用生态过于庞杂,每一类应用,都有无数“主流应用”。 ▲安卓应用商店 苹果AI可以只把邮件应用做好就可以提升绝大部分人的办公AI体验,但在国内,把办公体验做好牵涉到的App数量难以想象,甚至每家公司都在使用独立的办公应用。 ▲安卓应用商店 对于国内安卓手机厂商来说,一些系统自带的邮件、浏览器、音乐、视频、笔记等软件,恰恰是用户不常使用的。 国内安卓手机AI跨应用的操作、AI功能与应用的深度融合,必然涉及到产业各方的共同努力。 问题如何解决?安卓或许仍然可以跟苹果取经。 苹果让三方App也可以快速接入苹果AI,使用苹果AI,或被苹果AI所使用。 目前国内一些安卓厂商也在向着这一方向努力,推动开发者将应用提供的服务转化为一个个AI可以调用的能力,而AI所具备的功能也可以被各类三方应用所调用。 可以说,生态这件事,还要用生态的思路来解决。   04. AI手机时代:智能系统就是智能体智能体就是智能系统   既然我们最开始就提到,智能体是苹果AI里非常重要的一部分,那我们为什么最后才来说Siri?实际上,在AI手机时代,智能体与AI系统之间并没有那么清晰的边界了。 一个个人化智能系统,实际上就是一个个人智能体。 上述提到的所有苹果AI的能力,实际上就是Siri的能力。 不论是文本、图像的生成式创作,还是个人情境的理解,亦或是跨应用的操作,我们都可以通过Siri来完成操作,服务也可以由Siri直接提供。 在AI手机时代,智能系统就是智能体,智能体就是智能系统。 理解生成语言和图像、跨应用操作能力、个性化专属能力、智能体这四个苹果AI重要组成部分,实际上是相互关联,相互深入,你中有我我中有你的。 当然,在智能体这个环节,还是有一些功能是可比的了,比如自然的语言对话能力、上下文联系理解能力,以及一些语音助手更常用的功能。 在自然语言对话理解方面,其实目前各家的差异并不大,这里我们不需要过多对比。 ▲通过语音助手设置日程 Siri这边能够读懂、理解屏幕内容并执行相应操作的能力给我们留下了比较深刻的印象。 ▲Siri的AI识屏 目前安卓阵营各家AI也几乎都已经具备了AI识屏的能力,比如通过双指长按屏幕,AI就会对屏幕内容进行分析。 我们可以点击地址信息跳转到导航App,点击日程安排信息创建日程,或者点击电话号码创建联系人。 ▲安卓旗舰机的AI识屏功能 当然,AI也可以识别某个图片中的人物。 ▲安卓旗舰机的AI识屏功能 总体来看,智能体这一环,反而是安卓与苹果阵营差异最小的一方面,智能体,其实更多承担了AI与人交互的“入口”功能,也就是信息输入输出的窗口。 苹果和安卓的核心差异,仍然存在于智能体背后整个智能系统的能力、底层逻辑、实际体验等方面。   05. 结语:AI手机,让子弹再飞一会儿   当我们细心逐帧梳理并对比苹果AI和安卓AI后,我们发现,最核心的差异其实并不在于表面上看到的那些功能,比如AI写作、AI生图、AI摘要或是AI路人消除。 这些AI功能并不是最大的挑战,难点在于如何将这些AI能力内化到系统的每一个组成部分、每一个应用,每一个体验的细节中,这也是苹果AI和安卓AI核心的差异。 说“苹果摸着安卓过河”,更多是从表面AI功能上来看的,但实际上,这就像如今手机操作系统功能设计趋同一样,“表面上看起来一样”是一件再正常不过的事了。 在使用过国内五家头部厂商的旗舰机AI后,我们也能感受到,各家的AI真正用起来的体验,的确有着不小的差异。 当然,话说回来,苹果的AI目前来说仍然是“一张大饼”,虽然发布会上的功能演示都是用真机进行的,但真正未来苹果AI落地能有怎样的体验,还是个未知数,苹果AI国内的体验,同样是未知数,半年甚至一年后,等苹果AI全面落地后,国内安卓厂商又会放出怎样的AI大招,也是未知数。 在这么多“未知”的前提下,我们不如让子弹再飞一会儿。 哦对了,说一千道一万,苹果说的所有的AI,现在还是“一张大饼”。 最后到我们手里长啥样,这事还真没准呢。

迪士尼是怎么做双足机器人的?

酷似“瓦力”的迪士尼机器人,背后是什么原理? 编译 |  陈骏达 编辑 |  Panken 智东西8月1日消息,7月15日,迪士尼公布了一篇16页的论文,详细介绍了他们新型双足机器人BD-X的主要设计和控制方法。这个机器人外形酷似《机器人总动员》里的“瓦力”,灵感源自于《星球大战》中的同名机器人。其硬件采用标准零件和3D打印外壳,腿部有5个自由度,通过强化学习掌握了动画人物的行走姿态,动作灵巧流畅,还锻炼出跨越复杂地形的能力。 在不久前的IEEE活动上,这个迪士尼机器人还跟杭州宇树科技的机器狗面对面炫技斗舞。 ▲迪士尼BD-X机器人与宇树Go2互动(图源:YouTube) 更早之前,它在今年3月的英伟达GTC大会上作为惊喜嘉宾压轴出场,与英伟达创始人兼CEO黄仁勋亲密互动,还摇头晃脑撒娇卖萌。 ▲酷似瓦力的BD-X机器人与黄仁勋在GTC大会上互动(图源:英伟达) 这一机器人以娱乐为目的的设计理念极大降低了硬件复杂度与成本。但迪士尼为这台机器人加上了额外的扬声器、天线、头灯和眼睛,这让它能以更多的方式表现自己的“情绪”。 虽然BD-X看上去活灵活现,似乎真的能理解人们说的话,但其实它并不具备主动的感知和行为能力。它的一举一动都是通过人工操作实现的。这台机器人配备了来自英伟达的机载计算机Jetson,能将人类指令与训练时积累的经验结合,输出最终的行动指令。 ▲论文首页截图(图源:迪士尼) 论文地址:https://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/   01. 机械设计简单有效服务娱乐与创意目的   迪士尼在设计BD-X机器人时选择了与大多数企业都不同的路径。他们并不追求最好、最强大的机械设计,而是选择了能够满足创意和娱乐目的的简单设计。研究者成功集成了动画内容、设计、控制、实时操纵等元素,并用不到1年的时间实现了定制机器人角色的快速开发。 这一机器人主要使用了市面上的标准化零件,而外壳则是3D打印的,但经过软件调试后,仍然可以在降低硬件复杂度的前提下实现不错的表现。 ▲迪士尼BD-X机器人设计图(图源:迪士尼) 这一双足机器人的总重为15.4公斤,高度为0.66米。每条腿上有5个自由度,而头部与颈部则有4个自由度。腿部的高自由度使得这一机器人能完成大幅度的动作,而头颈部的高自由度则让机器人可以通过动作表现各种妙趣横生、情感丰富的动作。 ▲BD-X机器人在迪士尼乐园亮相,画面最右侧的二人为操作员(图源:YouTube) 迪士尼的工程师还通过巧妙的设计让机器人能在没有膝盖弯曲执行器的情况下,依赖与地面的接触实现逼真的膝盖弯曲效果。这一机器人配备一块微控制器驱动的通讯板,能以600赫兹的频率实现内置电脑、执行器和惯性测量单元之间的通讯。1块可拆卸电池为机器人供电,能维持至少1个小时的运转时间。 有趣的是,除了头部和躯干上配备的扬声器,这台机器人还有具备执行器的天线、能点亮的眼睛和一盏头灯。这些设备为机器人提供了更多表现情绪的方式,同时其控制和驱动都是相对独立的,因此可以选择是否搭载这些功能。   02. 利用强化学习掌握动画动作在英伟达Isaac Gym中模拟训练   为了给机器人动作提供一个清晰的框架,迪士尼的研究人员将机器人的动作分为以下3类。 1、持续性动作:没有明确的起点和终点。机器人保持平衡,并对测量到的状态和连续的控制输入流做出响应。 2、周期性运动:有一个周期性的相位信号传递给策略。在这种模式下,相位信号无限循环。 3、偶发性运动:有预定的持续时间。策略接收单调递增的相位信号,一旦运动结束,就会强制过渡到新的运动。 ▲BD-X机器人的3种运动类型(图源:迪士尼) 机器人的控制策略是机器人学中的重要概念,指的是将机器人的状态映射为动作或电机命令的函数,使机器人能实现预期的行为和任务。 研究人员让BD-X机器人通过强化学习的方式掌握了多种控制策略,分别针对上述3种类型的动作。 根据机器人的CAD模型,迪士尼的研究人员构建出了这一机器人的准确物理形态、执行器和它与环境的互动,并通过英伟达的机器人训练平台Isaac Gym模拟出这一机器人的刚体动力学特征。研究人员还通过定制的执行器模型进一步模拟了这一机器人的完整动力学特征。 ▲BD-X模拟训练系统(图源:迪士尼) BD-X机器人的动作是根据动画内容学习的。迪士尼的研究人员提取了动画中人物的特定动作指标,如躯干的全局位置、关节的位置和矢量等信息,这些信息将用来训练这一BD-X机器人模仿动画中的动作。 在Isaac Gym的模拟训练中,机器人会收到强化学习系统的奖励和惩罚。这一系统会考虑动作与动画人物的相似度、动作的规范程度(如有无关节扭曲、动作是否流畅)以及机器人是否生存(“死亡”被定义为头和躯干与地面接触,或头和躯干碰撞),并给出相应的奖惩。 训练过程中,系统还会模拟出随机的扰动、牵引力还有不同的地貌,这提升了机器人的鲁棒性(Robustness,指抗干扰性或稳定性)。   03. 并无主动感知和行动能力通过复杂控制器实现运动   迪士尼的研究人员称,在发布这篇论文时,BD-X机器人已经有过累计10小时的公开展示运行时间,在这10小时里这一机器人表现完美,一次都没有摔倒。许多观众都被这一机器人可爱的外表吸引,而未注意到这一机器人的操纵者。 实际上,BD-X机器人并无任何主动的行为和感知能力,其动作都是通过专业人员操纵一个复杂的控制器实现的。在运行期间,操作员可以使用直观的遥控互动界面控制这一机器人。这一操纵设备较为复杂,有2个摇杆、2块路径板,正反面总计有十几个按键。 ▲BD-X通过控制器实现灵动的动作(图源:迪士尼) 在虚拟训练结束后,神经控制策略的权重被冻结,策略网络被部署到机器人的机载计算机Jetson上。部署后的控制策略和低层次控制器直接与机器人的硬件交互,还能融入惯性测量单元和执行器的测量数据。 机器人内置的动画引擎能自动将操作员输入的指令,与机器人内置的策略控制命令、展示功能信号(天线、眼睛、头灯的控制信号)和声音信号结合起来,为控制策略生成最终指令。 ▲操作员在英伟达GTC 2024的后台调试BD-X机器人(图源:YouTube) 人工操纵指令和内置策略控制命令的结合能避免机器人出现训练过程中研究人员希望规避的动作,如摔倒、动作僵硬不流畅等等。 ▲BD-X机器人展现出很强的鲁棒性,能在多种复杂地面情况下保持稳定(图源:迪士尼) 展示功能和音频是机器人的受控元素,在表现角色方面起着关键作用,但不会影响系统的动态。它们的行为通过动画引擎发出的动画信号和状态反馈与机器人的运动同步。   04. 结语:AI让动画人物走进现实“不实用”的机器人也有价值   其实迪士尼是机器人领域的资深玩家,从上世纪60年代以来他们就一直深耕机器人相关研究,并且在迪士尼乐园中尝试部署他们的研究成果,探索让动画人物走进现实世界的各种方式和场景。 ▲迪士尼过去在机器人领域的相关研究(图源:迪士尼) AI技术的发展让机器人的一举一动都更为逼真自然,而强化学习让专业动画师制作的人物动作在现实中落地。虽然BD-X机器人并不像其它双足机器人那样能进工厂、上流水线,但我们也乐见娱乐目的的机器人技术进一步发展,让普通人也能享受到机器人带来的快乐。 来源:迪士尼

合合信息研发总监常扬:大模型RAG技术架构与应用实践

  随着大语言模型的兴起,其在处理自然语言任务上展现出了强大的能力,但也逐渐暴露出一些问题。大语言模型虽然能够生成连贯且富有逻辑的文本,但在某些情况下可能会出现“幻觉”,即生成不准确或无根据的内容。而且,大语言模型对于最新的、特定领域的专业知识的掌握可能存在滞后性。 目前主要有两种途径解决以上问题:一是微调,二是RAG。微调虽能使模型“学会”私域知识,但是,模型微调工作复杂,从数据准备、算力资源、微调效果到训练时间,都面临诸多挑战,用新数据随时微调不切实际,每月能更新一次已属理想状况。RAG 则为生成式模型与外部世界互动提供了颇具前景的解决办法。 RAG的全称是Retrieval-Augmented Generation,中文翻译为检索增强生成,是一个为大模型提供外部知识源的概念。通过RAG,可以使大语言模型生成准确且符合上下文的答案,同时能够减少“幻觉”。 RAG的主要功能类似于搜索引擎,能够找出与用户提问最相关的知识或对话历史,并结合原始提问创建内容丰富的 prompt,引导模型生成准确的输出。RAG还可分为5个基本流程:知识文档的准备、嵌入模型(embedding model)、向量数据库、查询检索和生产回答。 为帮助大家更加深入地了解RAG技术及应用,8月5日19点,智猩猩邀请到合合信息智能创新事业部研发总监常扬带来最新一期「智猩猩大模型技术公开课」,主题为《大模型RAG技术架构与应用实践》。 常扬首先会介绍RAG技术背景、系统架构的演进与前沿进展,之后将着重讲解 RAG 技术架构与核心模块。接下来,常扬将以合合信息的TextIn文档解析技术、acge_embedding_model向量化模型为例,对RAG关键技术进行精讲。最后,他会分享合合信息的两个应用实践:OpenKIE 开放域多模态信息抽取、TextIn分析师知识问答。 第9期信息  主 题 《大模型RAG技术架构与应用实践》  提 纲 1. RAG技术背景、系统架构的演进与前沿进展 2. RAG技术架构与核心模块 3. RAG关键技术精讲 – TextIn文档解析技术与acge_embedding_model向量化模型 4. 应用实践 – OpenKIE 开放域多模态信息抽取、TextIn分析师知识问答  主 讲 人 常扬,合合信息智能创新事业部研发总监,复旦大学博士,复旦大学机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,多个学术会议讲师与技术社区AI专家博主,负责合合智能文档处理业务线的产品、技术、云服务平台研发工作。任职期间,先后主导了人工智能数据清洗平台,卡证识别、票据识别、行业文档定制等信息抽取产品,TextIn智能文字识别云服务平台,TextIn票据机器人、财报机器人、合同机器人等智能文档场景落地产品,为金融、制造、物流等行业提供智能文档处理产品与解决方案,在企业信息化转型领域具备丰富的技术落地经验和行业场景洞察力。  直 播 时 间 8月5日19:00-20:00

星尘智能获数千万美元融资,专注 AI 机器人商业化;OpenAI 部分开放 GPT-4o 语音,今秋扩至所有付费用户

01 今日融资快报 人形机器人星尘智能获数千万美元 Pre-A 轮融资,专注 AI 机器人商业化 AI机器人公司星尘智能(Astribot)宣布完成数千万美元Pre-A轮融资,由经纬创投领投,道彤投资及清辉投资等产业资本跟投,老股东云启资本跟投。华兴资本担任独家财务顾问。 星尘智能于2022年12月在深圳成立,致力于让数十亿人拥有AI机器人助理。公司专注研发“新一代最强AI机器人助理”,能像人一样学习、思考和劳动,与人流畅智能交互,会使用人的工具和设备、帮人完成枯燥、困难或危险的任务。(Z Potentials) Figma 完成 F 轮融资,多家知名投资方参与投资 界面设计工具提供商Figma宣布完成F轮融资。本轮融资由a16z、Alkeon Capital、Atlassian、Coatue、Durable Capital Partners、Fidelity Management and Research Company、Franklin Venture Partners、General Catalyst、Iconiq Capital、KPCB、SurgoCap、Thrive Capital、XN和红杉资本(海外)等多家知名投资方共同参与。 供应链可视化初创公司 Altana 在 C 轮融资中筹集了 2 亿美元 这家总部位于纽约的初创公司提供了所谓的“价值链管理系统”,该系统使企业能够通过人工智能洞察其供应链。本轮融资使 Altana 的估值达到 10 亿美元。 此轮融资由美国创新技术基金 领投,该基金是由前传奇娱乐首席执行官、后来成为科技投资者和企业家的Thomas Tull创立的风险基金。其他投资者包括 Salesforce Ventures、Google Ventures、March Capital、Omers Ventures、Friends and Family Capital 和 Activate Capital。 保险业 AI 解决方案提供商 Gradient AI 获 5600 万美元 C 轮融资 Gradient AI是一家保险业AI解决方案提供商,主要利用高级数据分析和机器智能来解决保险业和医疗保健行业中的问题。本轮投资由Centana Growth Partners牵头,现有投资者MassMutual Ventures、Sandbox Insurtech Ventures和Forte Ventures参与了此次投资。 医疗软件服务提供商 VitalHub 以 3400 万美元收购 MedCurrent 医疗保健软件和服务提供商VitalHub Corp.宣布收购临床决策支持公司MedCurrent Corporation。该交易价值3400万加元。此次收购将整合MedCurrent的人工智能驱动的OrderWise平台,该平台优化诊断测试并减少不必要的测试,以及VitalHub的患者流程软件。 AI 和物联网解决方案提供商 Trio Mobil 获 2650 万美元种子轮融资 Trio Mobil是一家人工智能和物联网解决方案提供商,致力于提高工作场所的安全性和效率,提供一套强大的解决方案,可满足设施和仓库内部物流以及高速公路运营的安全和效率要求。公司通过其专门的增长股权战略NewSpring growth获得了由NewSpring领投的2650万美元增长融资,现有投资者212和TIBAS Ventures也参与了本轮融资。 AI 治理软件 Credo AI 获 2100 万美元融资 Credo AI 的使命是让组织能够负责任地大规模构建、采用、采购和使用人工智能。Credo AI 的开创性人工智能治理、风险管理和合规平台可帮助组织衡量、监控和管理人工智能风险,同时确保遵守新兴的全球法规和标准,例如欧盟人工智能法案、NIST 和 ISO。 本轮融资来自 CrimsoNox Capital、Mozilla Ventures 和 FPV Ventures,现有投资者 Sands Capital、Decibel VC、Booz Allen Hamilton 和 AI Fund 也参与其中。这使得该公司的融资总额达到 4130 万美元。 软件供应链管理初创公司 Lineaje 筹集 2000 万美元 软件供应链管理初创公司 Lineaje 今天宣布,它已经筹集了 2000 万美元的新资金,用于提升其人工智能能力、提供安全的开源软件、降低企业软件维护成本并扩大其全球业务。 Prosperity7 Ventures、Neotribe Ventures 和 Hitachi Ltd. 领投了 A 轮融资,Tenable Ventures Inc.、Carahsoft Technology Corp.、Wipro Ventures、SecureOctane、Alumni Ventures Group 以及 ZScaler Inc.、CrowdStrike Holdings Inc. 和 Trellix Inc. 的高管也参与了本轮融资。 企业 AI 平台 Intelmatix 获 2000 万美元融资 Intelmatix是一家深度科技 B2B 初创公司,其目标客户是 MENA(中东和北非)地区希望帮助利用人工智能力量进行决策的企业,该公司已完成 2000 万美元的 A 轮融资。Intelmatix在 2024 年 3 月推出了其企业 AI 平台 EDIX,并已获得了 10 家企业客户。 该公司的 A 轮融资由 Shorooq Partners 领投,其他投资者包括 Olayan Financing Company、Rua Growth Fund 等。 金融科技公司 Aveni 获 1400 万美元的资金 Aveni已获得1400万美元的资金,用于推进AI在金融服务行业的使用。这笔融资将使Aveni与投资者劳埃德银行集团和全国合作开发FinLLM,这是一种金融服务特定的大型语言模型。 专为 ERP 设计的 AI 连接器 Monto 获得 900 万美元种子融资 Monto 是首款专为任何 ERP 设计的 AI 连接器,使 B2B 财务团队能够从企业客户使用的任何 AP 门户无缝获取报酬。该平台将 Monto 客户的 ERP 系统连接到客户的支付平台,并将这些企业带入 B2B 支付的未来,实现一键式付款流程。 此轮融资由 Scale Venture Partners 领投,Verissimo Ventures、F2 Venture Capital、Firsthand Alliance 和 Room40 Ventures 跟投。连续创业者 Ariel Maislos 以及来自 Intuit、Plaid、Salesforce 等公司高管的金融科技天使也参与其中。 AI 基础设施初创公司 Hyperbolic Labs 融资 700 万美元 人工智能基础设施初创公司 Hyperbolic Labs Inc. 表示,该公司已完成 700 万美元的种子轮融资,以改变人工智能开发人员获取计算和推理资源的方式。本轮融资由 Polychain Capital 和 Lightspeed Faction 领投,Chapter One、LongHash、Bankless Ventures、Republic Digital、Nomad Capital、CoinSummer Labs 和 Third Earth Capital 等其他投资者以及 Balaji Srinivasan、Illia Polosukhin、Sandeep Nailwal、Casey Caruso、Tekin Salimi 和 Santiago Santos 等天使投资人也参与了本轮融资。 AI 驱动的金融科技初创公司 Powder 获 500 万美元种子融资 在首席执行官 Kanishk Parashar 的领导下,Powder 创建了用于精确文档分析的 AI 代理,以快速构建提案、汇总外部资产、了解财产并按账户类型、号码、实体、税务状况和资产分类自动组织投资组合。融资支持者包括 YCombinator、General Catalyst、Funder’s Club、Elefund、Litquidity Ventures 和 Script Capital,以及 Jon Xu 和 Bryant Chou。 AI 语音公司 Gnani AI 获 400 万美元 A 轮融资 由 Ganesh Gopalan 和 Ananth Nagaraj 创立,是一家语音优先的生成式人工智能初创公司。在其 A 轮融资中从 Info Edge Ventures 筹集了 400 万美元。Gnani 提供无代码语音优先平台,具有多种产品功能,例如全渠道会话自动化、代理辅助、语音生物识别、全渠道分析等。 AI 解决方案提供商 Axle Automation 获得 250 万美元种子轮融资 Axle Automation是一家合规团队人工智能解决方案提供商,专注于利用生成式人工智能来自动化和增强AML合规流程,该公司专注于简化运营,例如加强尽职调查,从而使金融机构能够有效地扩大其合规工作,通过自动化这些传统上手动且效率低下的流程,旨在减少欺诈、合规风险和运营成本,同时增加收入。Axle Automation宣布其种子轮融资成功结束。本轮融资由 Diagram Ventures 领投,Mistral Ventures、Uphonest Capital、StreamingFast 和其他战略天使投资者参投。 AI 驱动的法律公司 DecoverAI 筹集 200 万美元种子资金 DecoverAI 成立于 2024 年,由首席执行官 Ravi Tandon、首席技术官 Janar Ramalingam 和首席运营官兼首席风险官 Kevin J. Van Horn 领导,是一家法律技术公司,专注于提供人工智能驱动的解决方案,以提高法律专业人士的效率和效果。其目标是建立一个智能人工智能系统,包含现实世界法律工作流程所需的功能,包括发现证据、将其与研究相结合,甚至生成不同的叙述策略来协助法律专业人士。此轮融资由利奥资本领投,其他知名投资者跟投。 AI 伴侣设备 Friend 获 250 万美元融资 Friend由哈佛大学辍学生、曾因创建COVID-19追踪网站获得威比奖的Avi Schiffmann开发。这款项链不用于提高生产力,而是作为一种情感玩具,通过连接到手机并持续监听用户的声音,来提供伴侣式的交流。 Schiffmann 已以 5000 万美元估值筹集了 250 万美元资金,投资者包括 Caffeulated Capital 的 Raymond Tonsing、Z Fellows 创始人 Cory Levy、Perplexity 首席执行官 Aravind Srinivas、Solana 创始人 Anatoly Yakovenko 和 Raj Gokal、Morning Brew 首席执行官兼联合创始人 Austin Rief(约旦)在 Figma 从事人工智能工作的 Singer 和 Google 高级产品经理 Logan Kilpatrick。Friend计划以99美元的价格接受预订,预计于2025年1月发货。 机器人公司洛必德获得 B+ 轮投资 洛必德是一家机器人研发与运营商,核心产品为服务机器人,公司致力于构建机器人工程师文化, 研发机器人,提供机器人有关的服务。盈科资本投资成员企业洛必德科技宣布完成B+轮融资。此轮融资将进一步推动公司在自动驾驶和人形机器人的技术研发和产业化进程。 AI 数据提供商 Deepnote 收购 Hyperquery Deepnote 是一家位于加利福尼亚州旧金山的人工智能数据工作区提供商,收购了位于加利福尼亚州旧金山的数据科学和分析领域竞争对手 Hyperquery。交易金额并未披露。Deepnote 正在将 Hyperquery 的功能和客户集成到其人工智能驱动的数据笔记本中。 Airtable 收购 AI 人才入职初创公司 Dopt Airtable 收购 Dopt,后者专注于帮助初创公司为新用户提供产品入门体验。Dopt 近期推出了多项功能,使得用户能够将人工智能辅助工具集成到服务中,这也是 Airtable 收购的主要原因。Dopt 团队将加入 Airtable 的 AI 组。Airtable 正专注于人工智能,并推出了 Airtable Cobuilder,允许用户通过描述创建应用程序 (欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品) 02 今日大厂风闻 OpenAI向部分用户开放GPT-4o语音模式,今秋将扩大至所有付费用户 OpenAI宣布开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。据OpenAI介绍,高级语音模式能提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。实时响应和可打断对话是目前语音助手公认的技术难点。语音模式将于今年秋季向所有ChatGPT Plus用户开放,初期的功能将比较有限。 阿里通义免费开放奥运AI大模型 阿里通义宣布免费开放奥运AI大模型。据了解,此模型具备奥运专业知识与翻译功能。即日起用户可以在通义App免费使用。今年,巴黎奥运会是AI应用最广泛的一届奥运会。阿里巴巴的云计算和AI技术,正在全面支撑奥运转播和赛事运营。 周鸿祎宣布 360 安全大模型免费 周鸿祎称 360“要把大模型拉下神坛”,不希望大模型成为少数厂商奇货可居赚钱的工具,让每个企业都“用得起、用得好”。当前,360 全线安全产品已集成安全大模型的能力,对所有购买 360 标准产品的用户免费提供大模型标准能力,产品加量不加价。 快手可灵AI官方打假:目前没有APP 7月31日,快手官方发布“可灵AI打假声明”称,可灵AI目前没有App,更未在任何一家应用商店和网站上线可供下载的App,凡是标着“可灵AI”、暗示为可灵AI官方或得到官方授权的App都是假的。 百度飞桨 PaddleX 3.0-beta 昇腾版发布,支持多场景、低代码开发 PaddleX3.0-beta昇腾版是由飞桨推出的端云协同低代码开发工具,旨在帮助开发者以低成本和零门槛的方式解决产业中的实际问题。PaddleX3.0-beta昇腾版提供了便捷的开发范式,开发者无需深入了解底层原理,通过统一的命令和配置即可完成数据校验、训练、评估、推理等不同任务。此外,PaddleX还支持快速模型优化,暴露了关键超参数供开发者调整。训练好的模型可以通过简单的Python API集成到项目中。 国内首个亿级参数地震波大模型”谛听”在成都发布 谛听地震波大模型由国家超级计算成都中心、中国地震局地球物理研究所和清华大学共同开发,它拥有亿级参数,是国内首个、国内外最大规模的地震学专业 AI 训练数据集之一。该模型经过半年多的研究,已经可以投入使用,并且预计将于 2024 年 8 月完成十亿参数量级的版本预训练。此外,该模型已显著提升了地震信号的识别准确率和速度,对于突破中小地震波模型性能瓶颈、提高地震大数据智能处理能力具有重要意义。 此芯科技发布异构AI PC芯片,布局端侧AI生态 此芯 P1 采用 6nm 制造工艺,具备 AI 异构计算资源、全方位的安全引擎、多样化的外设接口以及多操作系统支持等特性。此芯科技的 “一芯多用” 战略旨在构建端侧 AI 生态,面向全球与本土双市场,打造新一代 AI PC 算力底座,支持混合人工智能部署。 03 今日产品动态 GitStart AI Ticket Studio 旨在通过AI来简化和优化软件开发过程中的 Bug 报告和功能请求。它能够自动化地生成详细、清晰的工程票据,减少沟通成本,提高开发效率。该工具集成了自然语言处理和机器学习技术,可以理解开发者和项目经理的描述,然后转化为标准化的、易于理解的任务描述。用户可以通过简单的描述来启动这个过程,AI 将自动填充必要的细节,包括问题的重现步骤、相关截图和日志,以及可能的解决方案。这样的工具对于提升团队协作和加速软件迭代至关重要。 🔗 https://gitstart.com/?ref=producthunt 1.Midjourney V6.1版本上线,优化远景人脸,细节更丰富 Midjourney V6.1 版本的上线带来了多项重要更新,包括图像连贯性的突破、画质的全面提升、微观细节的精准把控等。在处理复杂结构如人体和动植物时,表现出色,尤其是在细节如手臂、腿部和手掌的自然流畅表现上。新版本在减少像素伪影、增强纹理表现力方面取得了显著进展,特别是在皮肤质感和 8bit 复古风格的呈现上。标准图像任务的处理速度提升约 25%, 能更准确地生成文字,可以调用旧任务中的个性化模型和数据。 🔗 discord.gg/midjourney 2.RenderNet推出自动配音功能 Narrator RenderNet推出新的 Narrator 功能。用户上传自己的视频,并添加相应的脚本,系统将自动帮助角色与脚本中的话语进行口型同步。 🔗 https://rendernet.ai/ 04 特别关注 苹果公布一篇 47 页的论文,详细介绍了自家开发的两个基础语言模型 AFM-on-device,参数约 30 亿,以及更大的服务器端模型 AFM-server。论文中详细描述了模型的基于 Transformer 的密集解码器架构,以及进行的多项优化设计,旨在提高效率。训练过程包括核心预训练、持续训练和长上下文训练三个阶段,使用了多样化的高质量数据。后训练优化则采用了监督微调和基于人类反馈的强化学习来提升模型能力。此外,论文还提供了评估结果,展示了模型的性能。 🔗https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

奥特曼所投 AI 芯片公司 Cerebras Systems 即将上市;AI 大牛周志华任南京大学副校长

01 今日融资快报 Sam Altman 所投 AI 芯片公司 Cerebras Systems 即将上市 明星AI芯片独角兽 Cerebras Systems 今日宣布,已向美国证券交易委员会秘密提交了一份有关其普通股首次公开发行的表格 S-1 登记声明草案。此次拟议发行的规模和价格范围尚未确定,首次公开募股取决于市场和其他条件以及美国证券交易委员会审查程序的完成。 此前,Cerebras 以研发出世界上最大的芯片,并在人工智能和高性能计算(HPC)市场上与英伟达竞争而闻名。今年3月,Cerebras 推出了最新的Wafer Scale Engine 3芯片(又称”WSE-3芯片”)。 目前,该公司已累计融资 7.2 亿美元,估值约为 42 亿到 50 亿美元。6月,OpenAI 首席执行官 Sam Altman 参与了 Cerebras 的 8000 万美元 D 轮融资,他也成为该公司最大的投资人之一。 埃斯顿:拟4.5亿元对全资子公司埃斯顿机器人增资 埃斯顿公告,公司拟使用自有资金4.5亿元对全资子公司南京埃斯顿机器人工程有限公司进行增资,其中3亿元计入注册资本,1.5亿元计入资本公积。此次增资完成后,埃斯顿机器人的注册资本将由1.5亿元增加至4.5亿元,公司仍持有埃斯顿机器人100%的股权。埃斯顿于 1993 年在南京注册设立,2015 年在深交所上市,是国产智能工业机器人“四小龙”之一。 生成式 AI 公司 Ema 获 5000 万美元 A 轮融资 Ema 是一家致力于创造未来通用员工的生成型人工智能公司,在获得由 Accel 和 Section 32 领投的 3600 万美元资金后,宣布其 A 轮融资总额为 5000 万美元。Prosus Ventures、Sozo Ventures、Hitachi Ventures、 Wipro Ventures、SCB 10X、Colle Capital 和 Frontier Ventures。迄今为止,该公司已筹集 6100 万美元。自 3 月份揭晓以来,Ema 的客户群已经增加了两倍多。 开发者可观察性平台 Lightrun 融资 1800 万美元 Lightrun 成立于 2019 年,提供以开发人员为中心的可观察性平台,允许开发人员实时调试代码,而无需进行大量的预测试或重新部署。该公司声称其服务可以为各种环境(包括开发、登台和生产)中的应用程序行为提供无与伦比的可见性。其产品 Runtime Autonomous AI Debugger是一种基于生成AI的运行时自主调试器。 GTM Capital 领投了 B 轮融资,之前的投资者 Insight Partners LP 和 Glilot Capital Partners Ltd. 也参与其中。算上新一轮融资,Lightrun 迄今已筹集 4800 万美元。 AI 销售助手 Sybill 融资 1100 万美元 Sybill是一家专门为销售代表打造人工智能助手的初创公司,已在 Greycroft 领投的 A 轮融资中筹集了 1100 万美元。Sybill 成立于 2020 年,在 2023 年的 9 个月内将其 ARR 从 10 万美元扩大到了 100 万美元,其中大部分显然是由推荐推动的。 自 2020 年成立以来,A 轮融资使该公司的融资总额达到 1450 万美元。现有投资者 Neotribe Ventures、Powerhouse Ventures 和 Uncorlated Ventures 也参与了此轮融资。 招聘 AI Agent 平台 Tezi 获 900 万美元种子融资 Tezi 是一家初创公司,正在开发一款 AI 代理,用于协助人力资源团队在大量求职者中找到最佳人选。Tezi 的 AI 代理不仅能够筛选简历,还能在招聘人员的日历中安排面试时间,并自动发送面试邀请邮件。他们的模型已经通过了 2.5 亿份个人资料的训练,并且正在与 OpenAI 和 Anthropic 的模型进行优化,以适应招聘要求。 这轮 900 万美元的种子轮由 8VC 和 Audacious Ventures 领投,Liquid 2、Afore、PrimeSet、South Park Commons 和行业天使参投。 Not Diamond 筹集 230 万美元资金 Not Diamond 在首席执行官兼联合创始人 Tomás Hernando Kofman 的领导下,帮助开发人员将查询路由到最佳的 AI 模型。对于任何给定的输入,系统自动确定哪个模型最适合回答它,从而根据每个开发人员的数据和用例有效地个性化路由决策。 本轮融资由 defy.vc 领投,世界领先的人工智能科学家、工程师和高管参与其中,包括 Jeff Dean (Google)、Julien Chaumond (Hugging Face)、Zack Kass (OpenAI)、Ion Stoica (Anyscale、Databricks)、Tom Preston-Werner (Github)、Scott Belsky (Adobe)、Jeff Weiner (LinkedIn) 等等。 AI驱动的教育平台 Masterplace 融资 200 万美元 Masterplace已筹集 200 万美元种子轮资金,用于推出人工智能驱动的教育平台。该平台为学生提供内容,并使导师能够轻松创建课程和内容,同时简化学生跟踪和评估。这笔资金由一群商业天使和创始人 Ilya Rouss 支持。 法律公司 Definely 获 58.5万 英镑,用于AI法律技术开发 英国法律科技Definely获得了 Innovate UK 的 58.5 英镑拨款,以推进其为法律行业开发人工智能驱动的解决方案。Definely 于 2020 年推出,让律师更轻松地阅读、编辑和理解法律文件。该公司提供基于订阅的生产力解决方案套件,旨在在合同生命周期的执行前阶段为律师提供帮助。 安捷伦 Agilent 收购 AI 实验室技术服务商 Sigsense Tech 安捷伦科技Agilent Technologies致力于满足分析科学家和临床研究人员的科学和实验室管理需求。Sigsense Tech是一家AI实验室技术服务商,使用人工智能和电源监控来帮助优化实验室操作。近日,安捷伦Agilent官网宣布,已成功收购位于Sigsense Tech。此次收购旨在通过整合Sigsense的人工智能与电力监控技术,进一步优化和提升实验室的运营效率。具体财务细节尚未对外公布。 (欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品) 02 今日大厂风闻 AI大牛周志华任南京大学副校长 AI大牛周志华上任南京大学副校长,南京大学官网更新现任领导名单,新增两名副校长。其中就有南京大学人工智能学院院长周志华。他在人工智能、机器学习和数据挖掘领域有着深厚的研究成果,拥有超过 96000 次的 Google Scholar 引用,并且是少数获得 Fellow “大满贯” 的学者。 周志华曾在南京大学获得本硕博学位,随后在校任教,并迅速晋升为副教授、教授和博士生导师。他还担任过欧洲科学院院士、南京大学人工智能学院院长等职位,并在IJCAI担任理事会主席。他所著《机器学习》被广泛用作教材。最近,他的研究团队发表了关于 “学件范式” 的论文,并构建了首个学件基座系统 “北冥坞”。此外,南京大学党委书记谭铁牛也是 AI 领域的专家,两人共同组成了强大的 AI 领域领导力量。(量子位) 谷歌发布 Gemma 2 2B模型,引入 Gemma Scope 可视化功能 谷歌最新发布的 Gemma 2 2B 语言模型,通过蒸馏学习技术,在保持性能的同时实现了 “更小、更安全、更透明” 的特性。该模型在多种硬件上展现出了卓越的运行能力,并且能够在 Google Colab 的免费 T4 GPU 服务上流畅运行,降低了研发门槛。 Gemma 2 模型还引入了 Gemma Scope 功能,提供了一套开放的稀疏自编码器,帮助研究人员理解语言模型的内部工作原理,推动可解释性研究,并开发模型幻觉保护措施。尽管 Gemma 2 2B 提供了成本效益高的解决方案,但其训练阶段仍需大量计算资源 Meta元宇宙第二季度再亏45亿美元,AI助力广告业务增长 今年第二季度,马克·扎克伯格的Meta Platforms在其元宇宙业务Reality Labs上又损失了45亿美元,自2019年以来,其元宇宙资金损失已增至近600亿美元。Meta表示,对于Reality Labs部门,预计2024年仍将出现亏损。 此外,在第二季度财报电话会议上,Meta报告称其营收高于预期,人工智能助力广告业务增长,达到490亿美元,较去年同期增长22%,是有史以来第二大季度营收。 英伟达推下一代机器人整套平台型产品 NVIDIA 宣布为全球机器人制造商、AI 模型开发者和软件制造商提供一套服务、模型以及计算平台,以开发、训练和构建下一代人形机器人。整套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务,以及支持 AI 和仿真的远程操作工作流,该工作流允许开发者使用少量人类演示数据来训练机器人。 NVIDIA 介绍,首批加入早期访问计划的企业有 1x、波士顿动力公司、字节跳动 ByteDance Research、Field AI、Figure、傅利叶、银河通用、逐际动力、Mentee、Neura Robotics、星动纪元和 Skild AI。(亿欧) 马斯克:xAI并未考虑收购Character.AI 埃隆·马斯克表示,其人工智能初创公司 xAI 不考虑收购聊天机器人初创公司 Character.AI。此前The Information报道, xAI 正在考虑购买 Character.AI,以求更多方法来测试其 Grok AI 模型。 阿里将推出AI采购引擎,服务全球商家 阿里巴巴计划于9月推出AI对话式采购引擎。该引擎旨在改变中小企业的全球采购流程,使其更加直观和高效。新服务将整合所有电商平台,并专注于理解自然语言并转化为专业采购请求。此外,它还可以预测采购需求并提供建议。阿里巴巴的人工智能对话式采购引擎将首次亮相B2B电商领域。 科大讯飞在江苏成立两家人工智能新公司 天眼查App显示,讯飞星原(南京)科技有限公司、江苏讯智未来信息科技有限公司成立,法定代表人分别为刘江、黄飞云,注册资本分别为1亿人民币、3000万人民币,经营范围均含人工智能应用软件开发、人工智能理论与算法软件开发、人工智能通用应用系统、互联网数据服务、信息系统集成服务等。股东信息显示,两公司均由科大讯飞全资持股。 山姆·奥特曼:OpenAI正与美国人工智能安全研究所合作 OpenAI 首席执行官Sam Altman宣布,OpenAI 将与美国人工智能安全研究所合作,该研究所是一个联邦政府机构,旨在评估和解决人工智能平台的风险。尽管细节不多,但这一举动似乎旨在反驳 OpenAI 放弃了人工智能安全研究以追求更强大的生成 AI 技术的说法。 TikTok通过微软以每月约2000万美元的价格购买OpenAI的模型 微软通过云服务销售 OpenAI 的人工智能技术, TikTok 是这一业务的主要客户之一,每月支付约 2000 万美元,接近微软从该业务中获得的总收入的 25%。微软的这一业务预计年收入将达到 10 亿美元。然而,随着字节跳动在开发自己的人工智能技术上取得进展,TikTok 在 OpenAI 技术上的支出可能会停止。 亚马逊推出新的人工智能模型,提升无需结账的 “Just Walk Out” 技术 亚马逊为其 “Just Walk Out” 无需结账技术引入了新的人工智能模型。使得系统在处理实体店铺中的摄像头、货架传感器和其他信息时更加准确。消费者则可以在进入店铺时提供支付信息,随后在离开时自动完成支付并获得收据。 该技术已在全球超过 170 个地点应用,包括美国、英国和加拿大的机场、体育场、大学和医院。该技术还能够减少盗窃行为,并保证不会收集或使用任何生物识别信息。 TytoCare的AI肺部裂纹检测获得FDA批准 TytoCare的新型AI诊断工具Tyto Insights for Crackle Detection已获得FDA批准,该工具加入了TytoCare现有的诊断解决方案套件,旨在提高临床医生的效率和诊断速度。可以检测成人和两岁以上儿童的肺部裂纹,有助于指导患者进行适当的随访治疗。该工具将集成到TytoCare的家庭智能诊所和专业智能诊所解决方案中,于9月推出。 360悬浮球将换成集成15家最强大模型的AI助手 周鸿祎宣布360悬浮球将换成AI助手,并新增AI助手悬浮按钮。AI助手与15家顶尖大模型公司合作,全面整合到360的国民级入口产品中,用户无需安装插件即可使用。另外周鸿祎还透露,360AI搜索月活已经过千万。 03 今日产品动态 Toby 是一个在任何视频通话中提供实时语音翻译的工具,它能够在几乎没有延迟的情况下工作,旨在打破语言障碍,使跨国沟通更加流畅。只需下载应用程序,在任何视频通话平台(zoom、teams、google meet 等)上进行设置,就可使用 toby。目前支持全球最常用的 7 种语言,英语、中文、日语、西班牙语、法语、德语和葡萄牙语, 并且正在添加更多语言。还包含一些很酷的功能,如双向音频翻译、个性化词汇表、文字记录和音频比例调整等。 🔗https://www.trytoby.com/?ref=producthunt 1.斯坦福 AI 实验室推出 AlphaXiv 论文讨论平台,可进行实时讨论 AlphaXiv 由斯坦福 AI 实验室的学生 Rehaan Ahmad 和 Raj Palleti 打造,他们都曾在吴恩达实验室工作。该平台允许用户注册账号后对 arXiv 上的论文进行评论和讨论,支持不同类型的评论,如一般性问题、研究性见解、资源分享和私人笔记。用户可以申请成为 reviewer,参与论文评审和讨论主持。 AlphaXiv 最初是作为 web 开发课的期末作业启动,后来在斯坦福内部得到了实验室的使用和优化。该平台支持与 ORCID 系统的集成,实现了身份识别和学术成果链接。目前,AlphaXiv 已经吸引了多个实验室的合作,并且获得了业内专家的关注和支持。 🔗 https://chromewebstore.google.com/detail/alphaxiv-open-research-di/liihfcjialakefgidmaadhajjikbjjab 2.上海 AI Lab 开源 AI 搜索工具 MindSearch ,媲美 Perplexity Pro 上海 AI Lab 开源了名为 MindSearch 的 AI 搜索工具,能力与 Perplexity Pro 相当,提供了在线演示和代码,支持深入理解问题并构建动态搜索思维图谱,基于 MultiAgent 架构提升可信度和可用性。 MindSearch 能够浏览数百个网页来深入理解和回答问题,动态构建搜索思维图谱。该工具基于 MultiAgent 架构,旨在提高可信度和可用性。MindSearch 的核心功能包括动态构建思考图谱,通过 MultiAgent 反思机制来提高可信度,以及支持解决生活中的任何问题,进行深入问题解决,并优化用户界面。在超过 100 个人工设计的现实问题上,MindSearch 在深度、广度和真实性上均超越了 ChatGPT-Web 和 Perplexity.ai (Pro)。 🔗github.com/InternLM/MindSearch 🔗https://mindsearch.netlify.app 3.字节海绵音乐:更适合中国宝宝体质的suno 字节跳动的海绵音乐是一款AI驱动的音乐生成工具,在中文支持上更加优秀,吐字更加清晰。产品在 6 月 5 日开始内测,现在已经对所有用户开放。用户可以选择生成多样化的音乐风格,并根据个人喜好选择曲风、心情和音色。每次生成可以得到 3 首歌曲,最长可以生成 1 分钟的音乐。直接登录,输入歌词就能生成。(以下音乐直接由该条资讯生成) 体验🔗https://www.haimian.com/featured 4.竞争加速!Runway 宣布推出 Gen-3 Alpha Turbo 版本 Runway 宣布推出 Gen-3 Alpha Turbo 版本,该版本在视频生成速度上比原版快7倍,并且在许多用例中表现效果与原版相当。Turbo 版本将在未来的几天内推出图像到视频模型,并且会大幅降低价格,同时向免费用户开放。 🔗https://runwayml.com/product 04 特别关注 该视频是李沐发布的关于 Llama 3.1 论文的精读系列视频的第一部分“导言”。目前点赞数 7000+。视频主要内容围绕 Llama 3.1 展开,Llama 3 系列模型具有较大的模型参数(405B),在多语言处理能力、工具使用等方面表现出色。在与其他模型的比较中,Llama 3 有其独特之处,同时也存在与其他团队(如 Mistral)的竞争关系。 视频中提到了 Llama 3 的训练数据、评估数据的情况,以及它在各种任务上的性能表现。还展示了一些关于 Llama 3.1 的应用演示,如在问答、文本生成等方面的实际效果。此外,李沐表示后续视频会深入分享 Llama 3.1 的更多技术细节。 🔗 https://www.bilibili.com/video/BV1WM4m1y7Uh/?vd_source=7184a0d70c4988ce7cdac52eec6d058b

X(推特)因用户数据自动用于训练xAI面临欧洲监管机构质询;GPT-4o mini 表现优异引关注

🌐 X(推特)因用户数据自动用于训练xAI面临欧洲监管机构质询 欧洲数据保护监管机构正在对X(推特)决定允许用户数据自动输入其人工智能初创公司xAI的行为进行质询。这一决定在未事先获得用户明确同意的情况下进行了数据共享,引发了新的监管审查。爱尔兰数据保护委员会表示,已与X就其使用用户数据创建AI系统的计划交涉了几个月,并在上周四发送了关于用户透明度等问题的提问。隐私专家质疑这一举动可能违反欧盟的《通用数据保护条例》(GDPR),X可能面临罚款或其他处罚。   🔎 Llama3.1训练频繁故障,H100万卡集群稳定性受质疑 Llama 3.1在为期54天的预训练期间,共经历了466次任务中断,其中419次为意外中断,78%确认或怀疑由硬件问题导致,GPU问题占比高达58.7%。该模型在含16384块Nvidia H100 80GB GPU的集群上进行训练,尽管团队采取了减少任务启动时间、开发快速诊断工具等措施,但仍无法完全避免故障。此外,环境因素如气温波动也会影响训练吞吐量。这一系列问题引发了对大规模AI集群稳定性的担忧,特别是在未来更大规模的Llama模型训练中。 💡 GPT-4o mini 登顶大模型竞技场的秘密 GPT-4o mini 在大模型竞技场上的优异表现引起了广泛关注。它与满血版 GPT-4o 并列第一,超越了 Claude 3.5 Sonnet。这一成就的背后,是 OpenAI 对模型进行了针对性的优化,使其在拒绝回答次数、回答的详细程度和格式清晰度上都有所提升。这些优化使得 GPT-4o mini 在日常问题的解答上更加出色,从而在竞技场上获得了更高的评分。 🌟 英伟达分享 Llama 3.1 合成数据技术 英伟达最近发布了一篇技术博客,介绍了如何使用 Llama 3.1 生成合成数据。合成数据的生成对于改善语言模型和其他 AI 系统至关重要。英伟达提供了详细的步骤和代码,展示了如何利用 Llama 3.1 生成多样化的合成数据,以提高模型在特定领域的应用性能。   📰 百川智能成立信息服务公司,注册资本 5000 万 近日,北京百川智能信息服务有限公司成立,注册资本为 5000 万元。该公司由王小川控股的北京百川智能科技有限公司全资持股。新公司的成立,标志着百川智能在信息服务领域的进一步布局,预计将为客户提供更加全面和专业的服务。   📱 Apple Intelligence 主要 AI 功能推迟至 10 月公布 据 Mark Gurman 报道,苹果公司计划将 Apple Intelligence 的大部分 AI 功能推迟至 iOS / iPadOS 18.1,预计将在 10 月向公众发布。这一决定是为了确保系统的稳定性和性能,同时为用户提供更加完善的 AI 功能体验。iOS 18.0 和 18.1 的测试版将同时推出,其中 18.0 版本将侧重于 UI 更新和少量 AI 功能,而 18.1 版本将包含更多的 AI 功能,如 “Image Playground 文生图” 和 “Genmoji 表情包”。   🤖 Anthropic 爬虫机器人引发争议 Anthropic 公司的 ClaudeBot 爬虫机器人在短时间内对多个网站进行了高频访问,违反了这些网站的使用条款。这一行为引起了网站所有者的不满,他们认为 ClaudeBot 的行为不仅侵犯了版权,还占用了宝贵的服务器资源。这一事件凸显了 AI 抓取技术在使用时需要更加尊重版权和网站政策的重要性。   🌐 AI图像生成平台「LiblibAI」融资总额达数亿元 AI图像生成平台「LiblibAI哩布哩布AI」在成立一年内完成了三轮融资,总金额达数亿元人民币。天使轮投资方为源码资本、高榕创投和金沙江创投,第二轮由战略投资方领投,第三轮由明势资本领投,老股东持续多轮加持。融资金额将主要用于构建大规模算力中台、研发基于图像模型的插件和微调模型,以及支持开发者生态和原创模型作者。LiblibAI已积累了近1000万专业AI图像创作者和超过10万个原创模型,生产并分享超过2.3亿张AI图片。   🚀 Meta科学家揭秘Llama 3.1研发思路,展望Llama 4 Meta的AI科学家Thomas Scialom在最近的播客节目中,揭秘了Llama 3.1的研发思路,并透露了Llama 4的更新方向。Scialom指出,Llama 3.1的参数规模选择考虑了多种因素,包括scaling law、训练时间、GPU和硬件的约束等。他强调,模型规模的选择是一个极具挑战性的问题,需要在现有算力和Scaling Law的限制内找到合适的平衡点。Scialom还提到,Llama 3.1在训练过程中平均每3小时就会出现一次故障,主要由硬件问题引起,但团队通过一系列工具和策略保持了超90%的有效训练时间。对于Llama 4,Scialom表示Meta已经开始训练,并可能围绕agent技术展开,致力于构建一个复杂的agent系统。

巴黎奥运会展现中国科技创新力量;Runway Gen 3 Alpha 模型图生视频功能上线,11秒视频让脑洞大开

🚀 京东云八大AI产品发布,助力企业数字化转型 在2024京东云峰会上,京东云展示了其在人工智能领域的最新进展,并发布了包括企业大模型服务、智能编程助手JoyCoder在内的八大AI产品。这些产品旨在帮助企业提升效率,降低成本,并在数字化转型的道路上迈出坚实的步伐。其中,言犀数字人3.0平台支持100+个性化角色,50多个行业特定属性场景,展现了AI在模拟人类行为上的巨大潜力。 🇨🇳 巴黎奥运会展现中国科技创新力量 2024年巴黎奥运会不仅是体育盛事,也是中国科技创新的展示窗口。本届奥运会预计将有三分之二的远程服务通过云计算实现,奥运转播云基于阿里云部署,支撑奥运直播信号传至全球200多个国家和地区。此外,AI技术在赛事解说、360度直播、视觉搜索等领域得到应用,如阿里巴巴的通义大模型成为奥运首个AI大模型应用的技术提供方,提升了观众的观赛体验。   🌟 豆包大模型日均tokens使用量超5000亿, 豆包大模型越来越「香」了 豆包大模型,作为字节跳动旗下的AI图像生成平台,近期在图像生成领域取得了显著的进步。在2024年7月的火山引擎AI创新巡展成都站活动中,豆包大模型团队展示了其在图像生成方面的最新进展,包括文生图模型和图生图模型的升级。豆包大模型的日均tokens使用量已经超过5000亿,显示出其在图像生成领域的广泛应用和影响力。 📂 苹果公司推出Apple Intelligence隐私报告功能 苹果公司在iOS 18.1和macOS Sequoia 15.1的首个测试版中推出了名为“Apple Intelligence”的新AI功能预览。该功能允许用户查看一份详细的隐私报告,了解Apple Intelligence如何处理他们的请求。报告中会显示用户的请求是通过设备还是苹果的PCC(Private Computing Core)处理的,以确保用户隐私。此外,苹果还开发了专门的芯片,即“私人计算模块”,用于在线处理请求,全程加密,处理完成后所有数据会被永久删除。 🌟 Runway Gen 3 Alpha 模型图生视频功能上线,11秒视频让脑洞大开 在人工智能领域,视频生成技术正迎来新的突破。近日,Runway Gen 3 Alpha 模型的图生视频功能正式上线,用户只需上传一张图片,即可生成长达11秒的逼真视频。这一功能的推出,不仅极大地提升了艺术控制和视频的一致性,也让人们对AI的创造力有了新的期待。Runway 联合创始人兼CEO Cristóbal Valenzuela 也在社交媒体上分享了一系列令人惊叹的图生视频示例,引发了网友的热烈讨论和高度评价。 💡 惠普AI PC全场景AI解决方案发布,惠小微智能助手4.0升级 在”AI 用起来 —— 惠普 AI PC 全场景 AI 生态大会”上,惠普推出了全新的AI PC全场景AI解决方案,并对惠小微智能助手进行了4.0版本的升级。新版本的惠小微智能助手整合了”文心一言 AI”和”WPS AI”等生成式AI工具,提供了包括智能会议、电脑管家、生活助理等一系列智能化服务,显著提升了用户体验。 🪙 Meta发布AI Studio,零编程创建AI角色 Meta公司发布了AI Studio,这是一个允许用户无需编程即可创建、分享和定制AI角色的平台。AI Studio基于Llama 3.1模型,使得每个人都能轻松地扩展自己的影响力,通过AI角色与更多受众互动。Meta的目标是构建一个所有人都能利用AI创意能力的世界,而AI Studio正是这一愿景的起点。 📰 Meta SAM 2登场,首个能在图片和视频中实时分割对象的AI模型 Meta公司发布了Meta Segment Anything Model 2(SAM 2),这是首个能够在图片和视频中实时分割对象的统一开源AI模型。SAM 2在图像分割准确性上超越了以往的能力,在视频分割性能上也优于现有成果,同时所需的交互时间减少了三倍。这一突破性的技术将为视频编辑和混合现实体验带来革命性的变化。 📍 亚马逊云科技发布Amazon Q Apps,开启AI应用新纪元 亚马逊云科技近日宣布推出Amazon Q Apps服务,这项革命性服务允许用户通过简单的描述创建应用程序,无需深厚的技术背景。Amazon Q Apps隶属于Amazon Q Business,旨在简化软件开发、数据分析和内容创作等任务。此外,Amazon Q Developer服务现已集成到Amazon SageMaker Studio中,通过聊天式交互为机器学习模型的开发提供便利,显著节省了数据科学家的时间。 🪙 Meta推出AI Studio,让用户创建、分享和发现AI Meta推出了AI Studio,这是一个让用户无需技术背景即可创建、分享和发现AI的平台。用户可以通过AI Studio创建基于自己兴趣的AI角色,如烹饪教学、旅行建议等。此外,创作者还可以创建一个AI角色作为自己的延伸,快速回答粉丝的常见问题,帮助他们触及更多人。AI Studio目前在美国开始推广,用户可以在ai.meta.com/ai-studio或Instagram应用中创建AI角色。 📊 Vidu:生数科技与清华大学联合发布的视频大模型 Vidu是中国首个长时长、高一致性、高动态性视频大模型,由生数科技与清华大学联合发布。Vidu基于原创U-ViT架构,支持一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具有丰富想象力,可创作逼真或超现实内容,广泛应用于影视、广告、游戏等行业。 🚀 李飞飞AI新公司World Labs成为全球最快独角兽 著名计算机科学家李飞飞创办的AI公司World Labs,仅成立3个月便完成了两轮融资,最新估值达10亿美元,成为全球最快独角兽。World Labs致力于发展AI的空间智能,解决AI在三维空间感知和理解的难题。李飞飞坚信数据对AI的重要性,她的ImageNet项目为AI技术的底层设施提供了支持,包括ChatGPT在内的众多AI技术都受益于此。World Labs的快速发展,展现了李飞飞在AI领域的深厚影响力。 🔍 黄仁勋、扎克伯格支持AI大模型开源,两人互换外套 在第51届SIGGRAPH图形大会上,英伟达创始人CEO黄仁勋与Meta创始人CEO马克·扎克伯格进行了一场别开生面的对话。两人不仅讨论了人工智能和仿真模拟的未来,还就AI大模型的开源达成共识。在对话的高潮部分,他们甚至互换了外套,展现出两位科技巨头之间的友好关系。 📰 AI创业热潮催生独角兽,警惕泡沫风险 AI领域正经历新一轮创业热潮,以ChatGPT为代表的技术引发了全球范围内的AI创业浪潮。近期,多家AI初创公司如Cohere、Skild AI和Cognition Labs等在短时间内获得了高额融资,估值飙升。然而,这股热潮背后也隐藏着投资泡沫的风险。PitchBook数据显示,过去三个月内,投资机构向美国AI初创企业投入了超过270亿美元,全球投资额约为500亿美元。业内人士警告,AI行业的高投入可能短期内难以看到实质性的回报,提醒投资者需谨慎对待这场AI创业潮。