X（推特）因用户数据自动用于训练xAI面临欧洲监管机构质询；GPT-4o mini 表现优异引关注

🌐 X（推特）因用户数据自动用于训练xAI面临欧洲监管机构质询

欧洲数据保护监管机构正在对X（推特）决定允许用户数据自动输入其人工智能初创公司xAI的行为进行质询。这一决定在未事先获得用户明确同意的情况下进行了数据共享，引发了新的监管审查。爱尔兰数据保护委员会表示，已与X就其使用用户数据创建AI系统的计划交涉了几个月，并在上周四发送了关于用户透明度等问题的提问。隐私专家质疑这一举动可能违反欧盟的《通用数据保护条例》（GDPR），X可能面临罚款或其他处罚。

🔎 Llama3.1训练频繁故障，H100万卡集群稳定性受质疑

Llama 3.1在为期54天的预训练期间，共经历了466次任务中断，其中419次为意外中断，78%确认或怀疑由硬件问题导致，GPU问题占比高达58.7%。该模型在含16384块Nvidia H100 80GB GPU的集群上进行训练，尽管团队采取了减少任务启动时间、开发快速诊断工具等措施，但仍无法完全避免故障。此外，环境因素如气温波动也会影响训练吞吐量。这一系列问题引发了对大规模AI集群稳定性的担忧，特别是在未来更大规模的Llama模型训练中。

💡 GPT-4o mini 登顶大模型竞技场的秘密

GPT-4o mini 在大模型竞技场上的优异表现引起了广泛关注。它与满血版 GPT-4o 并列第一，超越了 Claude 3.5 Sonnet。这一成就的背后，是 OpenAI 对模型进行了针对性的优化，使其在拒绝回答次数、回答的详细程度和格式清晰度上都有所提升。这些优化使得 GPT-4o mini 在日常问题的解答上更加出色，从而在竞技场上获得了更高的评分。

🌟 英伟达分享 Llama 3.1 合成数据技术

英伟达最近发布了一篇技术博客，介绍了如何使用 Llama 3.1 生成合成数据。合成数据的生成对于改善语言模型和其他 AI 系统至关重要。英伟达提供了详细的步骤和代码，展示了如何利用 Llama 3.1 生成多样化的合成数据，以提高模型在特定领域的应用性能。

📰 百川智能成立信息服务公司，注册资本 5000 万

近日，北京百川智能信息服务有限公司成立，注册资本为 5000 万元。该公司由王小川控股的北京百川智能科技有限公司全资持股。新公司的成立，标志着百川智能在信息服务领域的进一步布局，预计将为客户提供更加全面和专业的服务。

📱 Apple Intelligence 主要 AI 功能推迟至 10 月公布

据 Mark Gurman 报道，苹果公司计划将 Apple Intelligence 的大部分 AI 功能推迟至 iOS / iPadOS 18.1，预计将在 10 月向公众发布。这一决定是为了确保系统的稳定性和性能，同时为用户提供更加完善的 AI 功能体验。iOS 18.0 和 18.1 的测试版将同时推出，其中 18.0 版本将侧重于 UI 更新和少量 AI 功能，而 18.1 版本将包含更多的 AI 功能，如 “Image Playground 文生图” 和 “Genmoji 表情包”。

🤖 Anthropic 爬虫机器人引发争议

Anthropic 公司的 ClaudeBot 爬虫机器人在短时间内对多个网站进行了高频访问，违反了这些网站的使用条款。这一行为引起了网站所有者的不满，他们认为 ClaudeBot 的行为不仅侵犯了版权，还占用了宝贵的服务器资源。这一事件凸显了 AI 抓取技术在使用时需要更加尊重版权和网站政策的重要性。

🌐 AI图像生成平台「LiblibAI」融资总额达数亿元

AI图像生成平台「LiblibAI哩布哩布AI」在成立一年内完成了三轮融资，总金额达数亿元人民币。天使轮投资方为源码资本、高榕创投和金沙江创投，第二轮由战略投资方领投，第三轮由明势资本领投，老股东持续多轮加持。融资金额将主要用于构建大规模算力中台、研发基于图像模型的插件和微调模型，以及支持开发者生态和原创模型作者。LiblibAI已积累了近1000万专业AI图像创作者和超过10万个原创模型，生产并分享超过2.3亿张AI图片。

🚀 Meta科学家揭秘Llama 3.1研发思路，展望Llama 4

Meta的AI科学家Thomas Scialom在最近的播客节目中，揭秘了Llama 3.1的研发思路，并透露了Llama 4的更新方向。Scialom指出，Llama 3.1的参数规模选择考虑了多种因素，包括scaling law、训练时间、GPU和硬件的约束等。他强调，模型规模的选择是一个极具挑战性的问题，需要在现有算力和Scaling Law的限制内找到合适的平衡点。Scialom还提到，Llama 3.1在训练过程中平均每3小时就会出现一次故障，主要由硬件问题引起，但团队通过一系列工具和策略保持了超90%的有效训练时间。对于Llama 4，Scialom表示Meta已经开始训练，并可能围绕agent技术展开，致力于构建一个复杂的agent系统。