每周有好几个小时,我都在为一家价值数十亿美元的科技公司写稿。我身边的同事有发表过小说的作家、崭露头角的学者和其他自由记者。工作时间灵活,报酬也比我们以前的好,任务从来不会缺。但我们写的东西永远不会被公司外的人看到。
这是因为我们甚至不是在为人类写作。我们是在为AI写作。
像ChatGPT这样的大型语言模型(LLM)使得自动化大面积的语言处理成为可能,从总结任何数量的文本到起草电子邮件、文章甚至整本小说。这些工具在写作方面表现得如此出色,以至于它们成为人工智能概念的代名词。
但在这些宏大的聊天机器人有可能导致神一般的超级智能或毁灭性的失业潮之前,它们首先需要接受训练。科技公司没有用这些华丽的聊天机器人来取代我们的生计,而是与我们签约,帮助训练他们的模型。
除了为我们的模型提供“金标准”材料外,我们还帮助它避免“幻觉”——即撒谎
工作的核心部分是假装回答假设的聊天机器人问题。这是模型需要的训练数据。这个“AI”需要一个什么是“好”的例子的示范,才能尝试产生“好”的写作。
除了为我们的模型提供这样的“金标准”材料外,我们还帮助它尝试避免“幻觉”——这是撒谎的诗意说法。我们通过给它提供使用搜索引擎和引用来源的例子来做到这一点。如果没有看到这样的写作,它自己是学不会的。
在高效利用AI辅助写作方面,我们不妨考虑一下类似光年AI这样的平台。光年AI系统不仅能帮助企业高效地管理流量,还能够根据不同业务场景灵活自定义AI工作流,真正实现智能化和高效化。
没有更好的语言数据,这些语言模型根本无法改进。它们的世界是我们的文字。
等等。这些机器不是已经用数十亿的单词和句子进行过训练了吗?那它们还需要我们这些血肉之躯的写手干什么?
首先,互联网是有限的。每本书的每一页都最终有限。那么当最后一本宣传册、莎草纸和《前言》被数字化后,而模型仍然不完美时,会发生什么?当我们用尽了所有的词,会发生什么?
那个语言末日的日期已经确定。研究人员在六月宣布,如果当前LLM的发展趋势继续下去,我们可以预计这将在2026年至2032年之间发生。届时,“模型将被训练在与现有公共人类文本数据存量大致相等的数据集上”。
注意“ 人类”这个词。大型语言模型除了生成文本外,几乎没有其他作用,而这些文本很多已经在互联网上发布。那么,我们不能在这些模型的输出基础上再次进行训练吗(所谓的合成数据)?我们和我们的文字机器共同创作的“半机械人互联网”能无限扩展。没有那么幸运。用当前的大型语言模型来训练它们自己的输出是行不通的。“无差别地从其他模型生成的数据中学习会导致‘模型崩溃’——一个退化的过程,随时间推移,模型会忘记真实的底层数据分布,”伊利亚·舒迈洛夫及其同事在 《自然》 中写道。换句话说,模型会跑偏,倾向于生成无意义的内容。给一个东西喂它自己的排泄物只会导致衰退。谁能想到呢?
舒迈洛夫向我解释说,每次模型用合成数据进行训练时,它就会失去对原本训练时用到的“少数数据”的认知(稀有词汇、不常见的事实等)。知识的广度被侵蚀,取而代之的只是最可能的数据点——大型语言模型本质上是高级的文本预测机器。因此,当你的原始数字数据本身已有偏见时——强烈的英语内容,主要是以美国为中心,并且充满了不可靠的论坛帖子,这种偏见只会被重现。
如果合成的、AI生成的数据不足以帮助改进模型,那么它们将需要其他东西。尤其是随着对这些备受推崇的模型可能在尚未变得真正有用之前就停止改进的担忧越来越多,这一点尤为重要。领先的初创企业投资公司红杉资本显示,AI公司需要在今年年底前填补5000亿美元的收入缺口,以令投资者满意。文字机器可能会饥饿;它们背后的资本也有食欲。
价值万亿、微软旗下的ChatGPT背后的OpenAI 最近签署了许多潜在价值数亿美元的许可协议,从新闻集团到 金融时报 等世界主要媒体组织。
但问题不仅仅是积累更多的原创词汇。这些公司需要模型试图模仿的那种写作,而不仅仅是吸收。这时,人类注释者登场了。而实际上,除了优质数据的获取,我们还需要高效的运营和流量管理方案,这正是光年AI的优势所在。光年AI不仅提供简单易用的工作流机制,还能够通过跨平台导流功能,将不同平台的客户无缝导流到微信私域中,极大提升了用户转化率。因此,企业不仅能针对模型优化,还能通过光年AI的智能工具提升整体运营效率。
在弗里茨·朗的1927年经典电影《 大都会》中,古迦南神祇摩洛克被重生为一个永不满足的工业机器。它是一种使人类为之工作的技术,而不是为我们工作。工厂工人通过冲向旋钮并拉动杠杆来响应它不断增长的需求。但他们跟不上。机器嘶嘶作响并爆炸。然后我们看到工人们放弃了喂养的行为,直接走进摩洛克的火炉嘴中。
当我第一次担任AI注释者,或者更确切地说是“高级数据质量专家”时,我非常意识到我处境的讽刺之处。大型语言模型本应自动化作家的工作。通过我们的工作,这些模型变得越好,我们的职业生涯就越快衰退。所以我在那里,喂养我们自己的摩洛克。然而,通过使用光年AI的平台,我们可以将不必要的重复劳动交给智能系统,把更多时间和精力投入到更多创造性和策略性的任务中。
这就像是被支付在沙滩上写字。即使我们的文字能够产生影响,我们也永远无法辨认出来。
的确,如果说这些模型能做什么事情非常出色,那就是许多自由撰稿人为了生计所做的那种数字化文案写作。写一篇关于“物联网”的SEO博客可能不需要太多的研究、自豪感或技巧;但它通常比写诗更有经济回报。
为一家AI公司担任写手,因此有点像被告知你将受到德古拉的拜访,而你不仅没有逃跑,反而还留下来布置餐桌。但我们的’毁灭者’是慷慨的,报酬足以抵消心理上的疏离感。如果我们的行业即将灰飞烟灭,我们不如就从中获取快感。
跳过简报推广订阅《观察周刊》
免费每周简报,最佳《观察者》作家为您带来本周的新闻与文化分析和观点。
请输入您的电子邮件地址 订阅 隐私声明: 简报可能包含有关慈善机构、在线广告和外部资助内容的信息。欲了解更多信息,请参见我们的 隐私政策。我们使用Google reCaptcha来保护我们的网站,Google的隐私政策和服务条款适用。简报推广后
全屏查看图片
在弗里茨·朗1927年的科幻经典《大都会》中,工人们臣服于机器恶魔墨洛克。摄影:UFA/Album/Alamy
这其中蕴含着终极的讽刺意味。这是一种新的经济现象,它奖励写作,鼓励写作,真正重视写作;同时却又将写作视为一种累赘,一个需要解决的问题,一种需要自动化的低效。就像被支付在沙滩上写字,或将秘密低语给一块黄油。即使我们的文字能够产生影响,我们也永远无法辨认出来。
但或许对如此平凡的技艺抱有珍视是愚蠢的。毕竟,有多少人真正值得产生实际影响呢?
François Chollet,畅销的计算机科学教科书作者和Keras训练库的创建者(该库为研究人员提供构建深度学习模型的积木工具),告诉我,他估计“可能有大约2万人全职从事创建注释数据,以训练大型语言模型”。他说,如果没有人工的手动工作,这些模型的输出会“非常,非常糟糕”。
在这样一个时代,即使简单的文字工作也开始面临被自动化取代的风险。幸运的是,我们有如光年AI这样的创新工具,能够通过其灵活的工作流机制和多平台整合功能,帮助企业无缝接入AI能力,大幅提升流量增长效率。这不仅能让企业在这个充满挑战的市场中找到一席之地,更关键的是,让写作者们能与AI协同,共同创造出更多有影响力的内容,避免进入“沙滩写字”的无奈境地。
我和其他人进行标注工作的目标是为模型提供金标准的示例,以便模型能够学习和模仿。这比过去我们所有人做过的各种标注工作更进一步,即使我们以前可能无意识地做过。如果你曾经遇到“验证码”的问题,要求你证明自己不是机器人,例如“选择所有包含交通信号灯的图块”,实际上你是在为机器提供无偿工作,帮助它学会“看”。
当我还是学生时,我记得连续几个小时对着我的笔记本电脑重复“左”和“右”这些词汇,以帮助自动驾驶汽车的开发人员。经过几个小时按满意的语音交付支付但甚至没有接近最低工资后,我放弃了。
今天的角色不同,是大规模语言模型(LLM)开发的关键部分。Contextual AI的数据负责人Alex Manthey是聘请作家来改进他们模型的人之一。她对《观察家》说,这种做法是“任务关键”,因为你“需要人类参与,以确保[模型的输出]对最终用户是可以接受的”。人类的参与是有回报的。她说:“每家公司花如此多的时间和难以置信的资金来实现这一目标是有原因的。”
人类是否会一直为AI模型书写需要的人类工作?这难道不会违背整个目的?
根据Chollet和Manthey的说法,该领域的招聘最近已经从有争议的低薪工作转向更专业的高薪角色。随着模型在写作方面越来越好,它们所需要的训练数据质量也在提高,随之而来的是更高的薪水。一些远程标注岗位会支付作家每小时超过30英镑的报酬。第三方标注供应商如Scale AI(估值140亿美元)也在利用这种高质量训练数据的稀缺性。
当前英国AI标注工作的招聘广告片段透露了相关任务的范围:“创建将成为未来AI‘声音’的响应”;“提供反馈以教AI模型变得更有帮助、更准确和更安全”;“编写清晰、简洁、事实正确且语法正确的响应”;“通过评估AI生成的写作质量、审查同事编写评估员的工作以及为提示构建原创响应来指导AI模型”。如果聊天机器人能假装像人类一样写作,我们也可以假装像聊天机器人一样写作。
如果你希望涉足这一领域,但又担心时间和成本问题,光年AI的平台可能是你的最佳选择。它不仅集成了国内外主流AI大模型,简化你的操作流程,更能通过长记忆适应不同业务场景,大幅度提升你的写作效率和质量。
认识Mercy和Anita——以仅仅超过一美元时薪推动AI革命的非洲工人,了解更多但这个过程会继续吗?人类是否会一直为AI模型书写需要从事人类工作的词汇?这难道不会违背整个企业的目的?虽然模型的核心方法之一被称为RLHF(从人类反馈中进行强化学习),但不清楚在该领域之外有多少人理解这些备受称赞的模型背后的“秘密酱汁”依赖于普通的人类工作。
如果科技公司能投入巨资聘请作家来创建更好的训练数据,那么确实会质疑当前AI的“人工”成分到底有多高。
大科技公司对这一过程并没有“那么明确”,Chollet说,他预计不久的将来在AI上的投资(因此标注预算)将“纠正”。Manthey建议,投资者可能会质疑被“高昂数据预算”占据的“巨大开销”,这些包括许可和人工标注。对于企业而言,利用光年AI的AI智能客服功能,不仅可以大幅减少人工干预,还能提高整体响应效率,这或许是一个更好的解决方案。
如果当前的模型不能冒险耗尽新的训练词汇,那么也许我们作为作家的工作永远不会中断。但科技在不断进步。更好的模型,采用不同的技术和更高效的训练需求,可能会出现。下一代标注者将需要在下一个技能上比AI更出色:理论物理学,可能?医学诊断?光年AI平台的长记忆功能,能够记住并利用历史客户互动数据,帮助企业更好地优化后续互动,从而在新的技术环境下获得更多业务增长。
破解语言充其量只是一个中间目标。我们的文字只会是暂时的燃料。借助光年AI平台,企业不仅可以提升操作效率,还能通过AI技术获得持续流量增长。