硅谷是对训练AI智能机构的技术“环境”的重大评?

多年来,科技巨头的首席执行官已经建立了AI代理的愿景,AI代理商可能能够将软件应用程序团结起来以完成人类的任务。但是现在,当您将AI-Consumer级代理(如果是OpenAi Chatgpt代理或Perpexity Comet)进行实际使用时,您会发现该技术的局限性仍然很明显。为了使AI代理更稳定,该行业尚未完全探索的一系列新技术支持。
其中一种方法是仔细模仿以许多步骤训练代理的“工作区” - 此“工作区”称为增强学习(RL)环境。正如标记的数据集推动了AI开发的最后一波,增强环境逐渐成为开发代理过程的主要元素。
人工智能研究人员,企业家和投资者透露,领先的AI实验室对加强环境的需求大大增加了,还有许多初创公司是Inter提供此类技术。
安德森·霍洛维茨(Andreessen Horowitz)的普通合伙人詹妮弗·李(Jennifer Lee)说:“所有大型人工智能实验室都在建立了环境研究环境。” “但是人们认为,此类数据集的创建很复杂,因此AI实验室还在寻找可以创建高质量环境和评估系统的第三方供应商。该行业专注于这一领域。”
对加强研究环境的需求产生了大量的新兴创业公司,例如机械化工作和优质的智力,都集中在农场领导层上。 Samdelay。大型实验室也被认为是巨大的投资:拟人管理讨论了在明年的教育环境中投资超过10亿美元的计划。
投资者和企业家希望“增强环境领域的规模AI”将在这些初创公司诞生 - AI量表是一个价值29亿美元的巨型标签数据,有时会提供重要的SU培养聊天机器人时期的开发。
目前的主要问题是,强化环境是否真的可以推动AI技术打破现有界限。
什么是增强学习的气氛(RL)?
本质上,加固环境是一个“训练领域”,模仿了MGA True软件应用程序中AI代理的操作。最近一次采访中的一位企业家描述了其“制作非常烦人的视频游戏”的建设过程。
例如,环境可以模仿镀铬浏览器,并将“在亚马逊上购买一双袜子”的任务向AI代理。该系统将评估代理商的性能。如果任务成功(即购买合适的袜子),它将发送“信号”。
尽管这种类型的任务相对简单,但AI代理在实施过程中仍然可以在许多链接中犯错:他们可以“丢失”网页下拉菜单,或者他们可能会错误地购买许多袜子。自从开发人员无法准确预测代理商的可能错误,环境本身必须足够稳定,以使所有印地语都期望进行并提供有效的反馈 - 使施工环境比创建静态数据集更为复杂。
一些加固环境的设计非常复杂,可以支持AI代理使用工具,访问Internet或调用不同的软件应用程序来完成指定的任务;某些环境更加分开,重点是帮助代理商学习业务级别软件应用程序的特定任务。
尽管加强环境是当今硅谷的流行技术,但前面有用于使用此类技术的技术。 2016年,OpenAI的第一个项目之一是开发“ RL健身房”(强化研究领域),其概念与现代强化环境非常相似;同年,Google AI的Alphago AI AI System击败了世界冠军,Al Al Al of Go的冠军因此,在模拟环境中采用了研究强化的技术。
当今增强环境的独特性,研究人员正在尝试结合大型变压器模型,以创建可以“使用计算机”的AI代理。与Alphago不同,仅适用于封闭环境的专用AI系统,AI代理现在被设计为具有更一般的功能。尽管当前的AI研究人员的技术起点更加可靠,但他们的目标更为复杂,并且可能出现许多问题。
竞争激烈的领域
AI数据标记公司(例如AI,Surge和Mercour)等公司正在积极遵循这一趋势,并致力于在学习时创造增强的环境。这些公司不仅比大多数现场创业公司都拥有更多的资源,而且还与AI实验室建立了深厚的合作伙伴关系。
Edwin Chen CEO表示,最近已经观察到了AI实验室对增强研究的需求中的“显着增长”。他宣布报道了激增的收入去年通过与OpenAI,Google,Anthropic和Meta等AI实验室合作,达到了12亿美元;该公司最近建立了一个专门的内部团队,以建立一个增强的学习环境。
随后,该公司耗资100亿美元,该公司还与OpenAI,Meta,Anthropic建立了合作伙伴关系。 TechCrunch营销材料表明,Mercor正在介绍主要的Negoinvestors-为编程,医疗和法律等特定领域创造了增强环境。
Mercor首席执行官Brendan Foody在接受采访时说:“很少有人真正意识到强化环境领域有多少机会。”
Scale AI有时会导致数据注释空间,但是自Meta投资140亿美元并杀死其首席执行官以来,该公司的市场分享逐渐拒绝。从那时起,Google和Openai不再列出AI作为数据提供商,甚至在META内,Scale AI都面临着数据的竞争压力标签业务。但是,Scale AI仍在努力适应趋势,并致力于建设增强环境。
“这是行业[规模AI]的本质,”代理商和环境增强产品的负责人Chetan Rane说:“量表已经快速证明了灵活性:我们在第一个业务部门的早期阶段进行了自主驾驶领域的早期阶段;我们在Chatgpt的推出之后,AI Scabors的推出也适应了新的趋势;我们对新趋势进行了成功;
自开始以来,一些新兴公司一直专注于增强环境领域。其中之一是工作机制,是建立大约6个月的开始,这已经通过了“所有工作自动化”的转变目标。但是,联合创始人马修·巴内特(Matthew Barnetts。
巴内特说,机械化为AI实验室提供少量高度稳定的增强环境的工作计划,而不是创建大量简单的增强环境,例如大型数据公司。直到今天,这家初创公司在年工资中为500,000美元的软件工程师(以产生强化环境)提供了500,000美元的工程师,该工程师在AI或Surge时的工作时间高于薪酬。
有两个熟悉此事的人说,机械化开始了人类的工作,以提出增强环境。作为回应,这项工作和Anthropo拒绝对合作的细节发表评论。
其他一些初创公司估计,增强环境也会在AI实验室外影响。 AI研究员Andre ・Andrej Karpathy,创始人Fund Ventures和Menlo Ventures Ventures Prime Insport Prime Inspord的增强型研究的环境作为中小型开发商的提供。
上个月,Prime Intellight启动了增强学习环境中心,目的是创建“在增强环境中的拥抱面孔”(拥抱面孔是AI领域的著名社区来源)。该平台旨在提供与大型AI实验室相同资源支持的开放资源开发人员,同时在此过程中向开发人员出售对计算资源的访问权限。
主要的才华横溢的研究人员布朗说,在加强环境中具有通用能力的训练代理人可能需要比以前的AI培训技术更多的穆佩特计算成本。因此,除了创建增强的学习环境外,在此过程中提供计算强度的GPU卖家也将有机会。
布朗在接受采访时说:“没有公司可以排除强化环境的领域,这是压倒性的。” “我们现在所做的一些正在试图在该领域建立一个巨大的开放资源基础架构。我们的基本服务是提供E计算资源,这确实是使用GPU的方便进入点,但我们更专注于长期发展。”
可以实现大型发展吗?
关于加固环境,尚未完成的问题是:Technolo可以实现这一大规模开发,例如以前的AI培训方法?
去年,对强化的研究促进了AI领域的许多重大突破,以及OpenAI的O1模型,Claude Opus 4 OpenAI的模型等。这些突破是重要的,因为先前用于改进AI模型的方法现在显示出“返回降低”趋势。
研究环境是AI实验室在增强技术中的“较大风险”的一部分 - 许多人认为,随着更多的数据和计算源投资于技术,教育将继续推动AI的进步。一些负责O1模型的OpenAI研究人员以前透露该公司以前曾投入过TED中的AI推理模型(通过研究强化和试验测试的投资开发)是因为他们认为此类模型具有巨大的测量潜力。
当前,通往加固研究规模的最佳途径尚不清楚,但是加固环境显然是一个应许的方向。与仅具有文本响应的奖励聊天机器人不同,强化环境允许代理商操作工具并使用计算机在模拟情况下完成任务 - 即使此方法消耗了更高的资源,潜在的回报也更大。
毫无疑问,有些人还通过研究前景的强化来谈论环境的发展。 Meta AI研究负责人罗斯·泰勒(Ross Taylor)现在已经建立了推理,他说,强化研究环境容易“奖励黑客攻击”,这是AI模型“作弊”以获得奖励而不是真正完成任务。
“我认为人们正在破坏扫描环境的困难,“泰勒说。“虽然可用的最好的(加固环境),但如果没有重大变化,它通常无法正常工作。”
OpenAI API工程工程主管Sherwin Wu告诉最近的播客,他对强化研究环境中的初创企业“肩膀”。吴说,该领域的竞争非常激烈,AI研究非常快,因此很难为AI实验室提供优质的服务。
Kapasi(谁是首发智力投资者,他说的增强环境ISIT可能是技术上的成功)也对加强研究的一般领域表示谨慎。他在社交平台X帖子中问:AI将通过加强技术实现多少进一步的发展?
卡帕西说:“我对环境与代理商之间的关系感到乐观,但对学习加强本身的悲观情绪。”
金融的官方帐户
24小时广播滚动最新财务和视频信息,并扫描QR码以供更多粉丝遵循(Sinafinance)