对话 AI 招聘平台 Mercor 创始人:招聘中 AI 如何评估人,五年后人类还能做什么?
作者:MD
出品:明亮公司
近日,美国红点创投两位合伙人JacobEffron(中)、Patrick Achase(左)在播客“非监督学习“中与AI招聘平台Mercor的创始人、CEO Brendan Foody(右)展开了一场对谈。除了Mercor的核心业务AI招聘的变化之外,三人也一同探讨了未来AI与人类未来在工作领域的关系。
Mercor由Brendan Foody在内的三位21岁的Thiel Fellows在2023年创立。今年2月,公司宣布完成1亿美元B轮融资,估值20亿美元。该轮融资由Felicis领投,Benchmark、General Catalyst和DST Global等投资机构跟投。Mercor通过AI技术自动化简历筛选、候选人匹配、AI面试和薪酬管理,旨在提升招聘效率并减少人为偏见。
在访谈中,Brendan Foody提到,目前Mercor实际上已经进入AI模型的评估和数据标注领域。随着AI模型能力的提升,大量复杂的问题已经无法通过模型本身或普通常识来得到验证,因此模型的开发者需要借助专业领域的高知人才,但往往这类工作并非长期职位,与“专家网络”蕾丝,因此通过其平台为大量AI实验室找到该领域的人才也就“顺理成章”,Foody指出,“数据标注市场正从大规模、低门槛的众包转向高质量、专家型标注”。
而在其核心业务“AI招聘领域”,Brendan Foody认为,AI在通过文本进行人才评估方面已接近甚至超越人类,尤其是在简历筛选、面试文字分析等场景,但在多模态任务(如情感和氛围判断)方面,AI尚有不足。
其中,Brendan Foody还提到了一个观点:随着未来招聘和人才评估将越来越依赖丰富的上下文数据,反馈机制和数据输入的完整性将直接影响模型(评估)效果。比如,如果雇佣一个投资人,将其在播客中的观点、平日会议记录等数据输入模型形成上下文,将无疑更有利于模型判断这一候选人的认知、能力和求职偏好。而在传统的招聘中,这类数据的评估要么被完全忽视,要么需要耗费大量的精力,而AI实现的成本更低、效率更高。
因此,AI和人类的分工可能会变为,AI将很快主导人才评估环节,提高效率和准确率——人类则更多参与到“推销”环节,如沟通岗位氛围、激励等,提升候选人体验。
“我看到的趋势是,未来人类会专注于创造评测,让模型能学会还不会做的事,而不是反复做同一个任务”Brendan Foody说。
以下为「明亮公司」编译的访谈正文(有删节):
Jacob:Brendan Foody是Mercor的联合创始人兼CEO,这是一家为AI-Native劳动力市场搭建基础设施的公司。Mercor平台已经被用于数据标注、人才筛选、绩效预测,以及评估人类和AI候选人。这是一家非常有趣的公司,处于招聘评估和改进基础模型的交叉点。
Brandon的团队最近融资一亿美元,他们正在与一些最先进的AI公司合作。我们今天的对话涉及很多有意思的话题,包括未来人类在劳动力中的角色。我们讨论了哪些类型的数据标注对模型改进最重要,Brandon回顾了Mercor的快速崛起及他做出的一些关键决策,我们还谈到了AI在招聘流程中哪些地方有效、哪些地方无效。总之,这是一次非常有趣的对话,我相信你们会喜欢。Brendan Foody,感谢你参加我们的播客。
Brendan:非常感谢邀请。我是你的忠实粉丝,非常兴奋。
Jacob:很高兴你能来。我想我们可以自上而下开始,对于我们的听众来说,我希望你能为大家梳理一下现在我们处在什么阶段?AI评估人才的现状如何?哪些有效,哪些无效?现在的进展如何?
Brendan:我对它的表现感到惊讶。我认为,只要是人类能够通过文本评估的内容,模型几乎都已经接近超越人类了,无论是面试的文字记录、书面评估,还是简历上的信号。这其实是一个很有趣的二元对立,因为这些技术实际上在经济中分布得很少。所以这里有很大的空白地带,这也是我们非常兴奋想要去开发和建设的事情之一。
Jacob:有没有哪些事情在推理模型出现之前是行不通的?比如说过去六个月,这些模型变得更好了,有哪些终于开始奏效了?
Brendan:是的,我记得在GPT-4发布时,我们构建了第一个AI面试官的原型,结果什么都不行。模型每两三个问题就会出现幻觉等各种问题。这一路走来,真的是顺风顺水。我认为推理模型的出现显然让模型在知识方面提升很大,尤其是在处理大量上下文、判断重点、关注焦点等方面变得更强大。
不过,模型在多模态任务上仍然没那么强,因为过去实验室对此关注不多,而且用强化学习做这类事更难,但我们对这方面的进展也很期待。
Jacob:你最期待模型什么时候能实现哪些里程碑功能?
Brendan:有一些事情,比如人类擅长做的事情,比如判断“氛围”(Vibe)——我是否愿意和这个人共事,这个人是否有激情、是否真诚,这些模型很难做到。即使对最优秀的人类来说也很难,更别说模型了。所以我很期待这方面的突破,也在为此开发评估工具。但每当我阅读模型的推理链,试图解读我们评测的内容时,我总觉得模型比我们团队里负责创建评测的研究员要理性得多。
所以模型进步真的非常快,大家都能看到它们在代码领域的表现,但我们其实还只是刚刚起步,很多其他领域也在以惊人的速度起飞。
Jacob:你们做的很大一部分其实就是为人类设计评估,看他们能否胜任工作。现在很多人在做AI员工,比如说让AI代理完成员工的任务,你们在这方面有参与吗?
Brendan:当然,我们在这方面做了很多。简单介绍一下公司的背景,我们创办公司的原因是觉得全世界有很多有才华的人没有获得机会,主要原因是劳动力市场高度分散。比如远程工作的候选人只申请了很少的职位,而旧金山的公司只考虑极少数人选,因为他们要手动解决匹配问题。通过应用大模型,我们可以解决这个匹配问题,建立一个全球统一的劳动力市场,每个候选人都可以申请,每家公司都可以雇佣。但后来我们发现,随着新型知识工作岗位的出现,对人力的需求激增,尤其是评估大模型的人才需求。所以现在我们为顶级AI实验室招聘各种专家。这些实验室使用我们的技术来辅助,不仅是为评估专家创建评测,也为模型和你提到的那些AI代理创建评测。
Patrick:对我们的听众来说,Mercor也有很多AI用于筛选候选人、处理简历等场景。你能介绍一下你们有哪些AI用例吗?你们现在用的技术栈是什么样的?
Brendan:一个很好的方法就是把人类手动做的所有事情都创建评测,然后看我们能否自动化。比如人如何评阅简历、面试、排序和决定录用谁。我们把所有流程自动化,比如评测我们解析简历的准确性、评分简历各部分的准确性、面试提问的准确性、面试评估的准确性,然后把这些全部输入模型上下文,再结合推荐信等其他数据,最终做出录用预测。
Patrick:主要是用现成的模型,你们负责评测和上下文设计吗?
Brendan:是的,基础任务用很多现成模型,但在最难的候选人最终评估环节,我们会做后训练。我们会从客户的数据中学习,比如哪些人表现好,原因是什么,从这些信号中学习,做出更好的未来招聘预测。
Patrick:你们学到过哪些让人意外的信号?比如AI发现了什么是你们人类没想到的?
Brendan:有很多这样的例子。我认为AI的一个关键优势是能更深入地分析候选人的所有细节,发现人类有时会忽略的小信号,而人类因为“氛围判断”可能早就决定了。比如简历里如果有人表现出对某个领域极大的兴趣,纯粹是出于兴趣而不是工作需要,这会成为一个信号。或者有人曾在目标国家留学,可能沟通更顺畅,更适合团队环境。这些小细节因项目和客户而异。
Patrick:你觉得有哪些事情是一定需要人做的?你刚才提到多模态任务,但你怎么看AI和人类面试官的协作?未来会不会全是AI评估?
Brendan:简单来说,招聘过程分为评估和推销。评估环节很快就会变得非常强大,大家会发现AI的推荐明显更准,大家会更愿意相信AI的结果。人类则会继续在推销环节发挥很大作用,比如让候选人了解团队、岗位、氛围等。AI让招聘经理和HR只需专注于真正想要的人选,而不用浪费时间面试不合适的人选。这样能让他们更好地帮助候选人了解岗位、团队和激励点。
Patrick:你觉得大家会不会开始“刷分”——有意迎合评测信号?你们遇到过吗?比如大家都说自己去目标国家留学过。
Jacob:大家都说自己去目标国家留学过。
Patrick:对,比如都说自己在招聘地留学过。
Brendan:是的,所以有时候我们要对信号保密。我们和所有大型招聘流程一样,经常遇到这种情况。关键是确保评测足够动态,比如经常更换问题,或者针对候选人背景问很深入的问题。因为模型能为面试做大量准备,人才评估的深度和广度前所未有。
比如我第一次面试高管候选人,可能只看几分钟LinkedIn和一些笔记,但如果我能听他们上过的播客,读他们写的博客或论文,再针对这些提问,深度和细节就完全不同。
Jacob:你们的模型很擅长预测候选人表现,这个过程需要可解释性吗?还是说模型黑箱给出结论就可以?
Brendan:我认为可解释性很重要,有两个原因。第一是让客户理解和信任模型的结论,建立信任和推理链。第二是确保模型选人是基于正确的理由。所以可解释性很有价值。
但我认为最终的经济形态可能就是API式的,人们需要完成工作,或者需要一定的人类参与,然后只要一个置信区间预测这个人能否胜任,整个流程里人类的中介作用会大大减少。
Jacob:这算是通往那个目标的信任里程碑,很有道理。目前数据标注环节有明确的反馈回路,比如多个人标注同一份数据。你怎么看把这种方法应用到更模糊的人类工作领域的挑战?也许你得等15年才能获得反馈。
Patrick:比如VC(笑)。
Brendan:我的一个看法是,如果有100个人做同样的工作,很容易给他们排名。但如果100个人做的工作都不一样,比如创始人,每个人的工作都很有差异,就很难找到共性,难以判断哪些行为或信息和结果有关。因为变量太多了。所以对于大规模同质岗位,比如招20个客户经理,模型可以从中学习信号并优化。但对于复杂岗位,比如我们在评估一批Thiel Fellows(蒂尔奖学金项目),这种情况就更具挑战性,更依赖模型的推理能力。
Jacob:有哪些具体挑战?
Brendan:主要挑战是很多信息没进到模型上下文里,模型无法学习,人们也经常忘记补充信息。比如我听朋友说某公司产品很好,这种信息没被输入模型。确保所有推荐信、人与人之间的细节都被输入,是主要难题。我们发现,其实只要把必要数据输入模型上下文,就解决了大部分问题。
Jacob:也许未来我们每个人的智能眼镜都在录音,随时把信息输入模型。
Brendan:对。
Jacob:会不会变成桥水基金那样的程度?
Brendan:也许是。但很多公司会排斥这种做法,出于法律和合规原因也不愿意。但我认为会有更好的流程,让模型能更好地获取上下文。比如AI做离职面谈,采访经理和团队成员,了解更多细节。人们脑子里有很多细节信息,我们只需要把这些信息输入模型,就能做出超越人类的预测。
Patrick:现在越来越多创始人和各种人都会带AI参加会议,所以很多会议和交流都会被录音,供AI学习。非常有趣。
Jacob:我们可以把自己的会议转录拿来给AI给我们打分排名。
Patrick:哈哈!
Jacob:前提是我能排在前面。
Patrick:你怎么看现在的数据标注市场?不同玩家如何区分?ScaleAI似乎遥遥领先,但现在又有很多新玩家,你怎么看这个格局?
Brendan:我认为大多数人不了解数据标注和评估市场的关键变化。市场和两年前完全不同。以前模型不够好,很容易被难倒,经常出错。高中生或大学生就能做很多标注或评测,通过众包方式做大规模数据收集,比如SFT(监督微调)、RHF(人类反馈强化学习),选择不同的偏好选项。
但随着模型变得很强,众包模式失效了,因为你需要高质量人才直接和研究员配合,帮助他们理解模型表现好或不好的原因,设计复杂数据来难倒模型,反映现实世界要自动化的难题。我们的平台正好能快速招到这些高质量人才。
这让我们迅速发展,与大实验室合作。我认为这个趋势会继续。那些还停留在大规模众包的公司会遇到很多麻烦,新的玩家会聚焦高质量人才,继续抢占市场份额。
Patrick:你觉得数据标注流程里对人类的需求会一直存在吗?模型越来越强,甚至能训练小模型,你怎么看未来的演变?
Brendan:我的看法是,只要经济中还有人类能做、模型还不会做的事情,我们就需要创造或模拟环境让模型去学习。所以有些领域会很快被攻克,比如数学或代码,数据量小且易验证,模型很快能解决。但有些领域很开放,比如评估好创始人,或者很多知识型工作,本质上是开放性难题,难以验证什么是好,需要把人类的理解输入模型。这就是为什么我预计人类数据(注:human data,通常指直接从人类或关于人类收集的数据)和评估市场会有数量级增长。
Jacob:如果我理解没错,你们最初的“套利点”和公司灵感就是全球各地有优秀的程序员,但他们无法获得某些工作的机会,这对编程数据来说非常重要。你们显然已经扩展到其他领域,比如编程本身是个完美的强化学习和评估用例,你们在进入这些更模糊的领域、招聘相关人才时,有哪些需要改变或改进的地方?
Brendan:我认为,借鉴人类手动做事的启发式方法是很好的做法。例如,如果你想自动化顾问的工作,怎么评估顾问?那就给他们案例研究,也许是和他们背景相关的案例。
Jacob:你们团队的人可能都很擅长评估程序员,但如果要让医生加入平台,你们怎么知道该用什么启发式来评估医生?
Brendan:你提到的这个点很有意思,就是当进入超出机器学习团队能力范围的领域时,就需要专家。我们需要医生来帮助我们设计医生的评估和评测标准,其他领域也一样。同样,这也是研究员需要做的事情。比如做看高中物理题还容易判断哪个答案对,但如果是博士级化学题,研究员没有相关学历就很难理解和改进评测。所以这也是你之前问的评估大变化之一——无论是评估人才还是研究员评估模型,都将变成更协作的过程,需要和专家一起合作,帮助模型进步。
Jacob:我听你说过,这种短期数据标注合同工作其实是你们最初市场的完美切入点,需求巨大,是通往端到端劳动力市场的楔子。你能聊聊公司实现这个愿景的路径和阶段性目标吗?
Brendan:我写过一份“秘密大师计划”有讲到这个。我的看法是,市场网络效应很强,这让它既有护城河也很难建立。所以现在我们非常专注于抓住巨大的需求,扩大网络效应,发展市场。
与此同时,我们也看到很多大科技公司客户需要大量合同工,比如上百个数据科学家、软件工程师等,虽然这些岗位和人类数据没直接关系,但本质上需求类似,只是更传统的市场,以前是和埃森哲、德勤等公司竞争。我们会把这作为第二重点,然后扩展到全职招聘。但其实我们公司早期做的就是帮朋友和自己招合同工,很多后来转正了。
所以这些业务是连续的,有很多共性。所有公司都想要更多候选人、更快招聘速度、更高的胜任信心。我们只要不断衡量并提升这些指标,就能服务好公司发展的每个阶段。
Jacob:有没有哪一刻让你们决定要转向人类数据领域,觉得机会特别明显?
Brendan:有,我还在大学时就遇到了。公司背景是我和合伙人14岁时在高中认识,大家18岁一起创业,他们赢了很多比赛,我没他们厉害,但一直在创业。后来我们开始在印度招聘国际人才,比如和IIT Code Club合作,发现有很多聪明人找不到工作,我们觉得可以雇他们做项目,朋友们也愿意付钱让我们帮忙招聘。我们就这样赚取小额服务费,把公司做到一百万美元营收,扣除工资后还赚了8万美金。
我很自豪,但父母还是不满意。直到我们融资了,他们才满意。回到你的问题,2023年8月,有客户把我们介绍给x.ai的联合创始人,那时他们还在特斯拉办公室。他说Mercor有印度的超级工程师,擅长数学和编程。第二天x.ai的创始人就和我们通话,非常兴奋。两天后我们就进了特斯拉办公室,见了x.ai几乎全部创始团队,除了Elon,就在他们和Elon开会前。我们还在上大学,简直不可思议。我们都在想,他们为什么这么想要我们的产品?因为市场变化太快,没人意识到。现在我们做大了,占了关键市场份额,才开始公开讲这些。但他们那时还没准备好用人类数据,大概六个月后我们才和前沿实验室合作,把业务做大。
Jacob:看到了浪潮来袭。
Brendan:是的,我发现很多创始人在找PMF时太过强求,其实应该观察市场信号,哪里有金矿就去挖。如果最初销售都很难做成,后面规模化会更难。要找到最痛点、最有钱的客户,他们愿意为解决问题付出一切,然后全力以赴。
Jacob:你们现在已经超越了编程,比如医生这个例子让我想到,其实评估好医生的标准最终会被模型公司用来训练模型,判断医生的推理过程对不对。你们在和客户合作时具体做什么?
Brendan:人类现在比AI强的一个关键点是能不断学习和进步。我们会寻找这些代理信号,比如候选人会问正确的问题,思考方式对,背景里有高绩效环境的经历,这些都能帮助他们发现模型的漏洞、提升模型能力。
Jacob:你们现在自己也用自家产品吗?具体怎么用在招聘上?
Brendan:当然,除了高管岗位,其他岗位我们都用。高管岗位我们也挂了职位,但大多还是我先面试,主要是为了推销岗位而不是筛选。我们的AI面试非常有效,很多时候是最有预测力的信号。很多人低估了招聘过程中的“氛围判断”偏见,人总觉得自己判断准。
Jacob:招聘其实是最早的“氛围”行业。
Patrick:VC们肯定没有这种偏见。
Brendan:所以我们要用业绩数据来做决策。比如我们招聘战略项目负责人,以前是人类做案例分析,现在全部用AI面试,最终转正率还提高了。AI面试能让比较更客观、标准化,不用不同面试官各自为政。
Patrick:评测环节你们是自己找人做,还是用市场上的人?内部做得多吗?
Brendan:我们会用市场上的人来做自己的评测流程,和客户流程类似。当然研究员还是要参与,分析模型出错原因、完善错误分类、优化后训练数据,流程和用人都一样。
Jacob:你们提到用多模态能力判断激情等特质,对未来的视频、音频等有何考虑?
Brendan:我常想强化学习(RL)在提升视频理解能力上的作用。RL擅长搜索问题,而视频信息量巨大,所以模型处理起来困难。我们要思考如何在多模态上下文里找到关键信号,比如候选人是否很激动、是否作弊等。我们要创造合适的数据,让模型关注这些信号,前沿实验室也在做底层能力提升。
Jacob:就像你说的,短短几年,标注市场变化巨大。你觉得两年后会怎样?这块业务还会存在吗?还是只剩下专家?
Brendan:我认为会是很重要的一块。我们创业的初衷就是聚合劳动力,让劳动力配置更高效。关键在于判断五年后人类在经济中的角色。
我看到的趋势是,未来人类会专注于创造评测,让模型能学会还不会做的事,而不是反复做同一个任务。所以我高度看好知识型工作向评测转型,可能形式会更动态,比如和AI面试官对话解决问题。我认为这是经济的重要组成部分,但大多数人还没意识到,因为大家把它和SFT、RHF市场混淆了,而这两类数据的价值正在下降,预算也在减少。
Patrick:你觉得未来哪些技能最值得培养?如果你建议在校生应该学什么,你会怎么说?
Brendan:我一定会建议大家追求快速学习能力,因为变化太快了。很多领域,人们以为模型很久都做不好,结果很快就突破了。要多和AI协作。我们市场上的人常说,他们喜欢能整天和模型打交道,思考模型做不到什么、缺了什么。这些经验能帮他们在实际工作中判断哪些环节用AI更高效。所以要尽量多用模型,熟悉它们在本领域的优缺点。这很有帮助,但很难说一定要做软件工程师还是别的什么。
Jacob:很有意思,未来我们可能都要花大量时间训练模型。硬技能有对错,但主观领域几乎无限。也许以后我们还能给自己专属模型打工挣钱。
Brendan:完全同意。我还建议大家关注需求弹性大的领域。比如软件开发,经济里有100倍、1000倍的需求,哪怕不是1000倍新Web应用,也有大量功能迭代、排序算法优化等。相比之下,会计师等需求就很固定。所以要尽量去需求会大幅增长、能提升总生产力的领域,这样更保险。
Patrick:你说得很对。我前几天和一个创始人聊天,他说,大家都在说软件工程师会被淘汰,但其实我真的很需要更多的软件工程师。
Brendan:我也很兴奋。如果我们的软件工程师生产力提高十倍,我们可能会雇更多的软件工程师。所以需求和价格的关系总是很有意思。
Jacob:你们创业之初,应该也有诱惑去做招聘协作工具或者为中介机构做软件吧?你们为什么决定做端到端的服务?这个决定是一开始就确定的吗?
Brendan:一开始我们有很多第一性原理的思考,反而有优势,因为我们没见过传统做法。我们知道朋友们想解决的问题就是想找到靠谱的软件工程师,所以我们就把所有环节都包办了。但现在回头看,我觉得越来越多公司会走向端到端,因为没必要为一个未来可能消失的岗位开发协作工具,更合理的是把整套流程自动化,让它能从反馈中学习和优化。
Jacob:确实,尤其你们做的数据劳动力市场,正好适合在AI能力还不成熟时做端到端。如果没有这个市场,你们可能也会先做协作工具。
Brendan:对,比如全职招聘,客户肯定希望员工在自己名下。所以我们很幸运,公司的运营模式和市场需求转变高度契合。
Jacob:一开始你们是帮朋友找合同工,最初你是不是觉得这是个副业,后来才变成主业?什么时候让你下定决心全职创业?
Brendan:其实我高中就一直创业,公司做得还不错,所以我本来不想上大学,和父母说了他们也不高兴,后来为了安抚他们还是申请了大学,但我一直说自己会退学,他们也不信,觉得既然我答应上学就不会退学。但我每学期都和他们说同样的话,最后真的退学了,也没提前打招呼,因为我已经说了两年了。
Patrick:我早就知道你会退学。
Brendan:对我来说,我很清楚自己想创业,想做有影响力的事情,而不是上那些感觉没用的课。我其实一直在寻找值得投入的事情。我的合伙人最初也是当副业做,想拿到足够证据说服父母退学。他们父母的要求是必须融资成功,哪怕公司已经有百万美金营收和利润也不行,必须拿到种子轮投资。所以家长才是VC们的“金主”——只有融资成功才算有“可信度”。
Jacob:没错,没有家长就没有VC。
Brendan:这就是“权威背书”。
Patrick:说到融资,你们之前(注:今年2月)刚完成一亿美元的B轮融资,恭喜!这笔钱会怎么用?你们是怎么判断何时该融资的?
Brendan:其实我们唯一主动去融资的就是种子轮,为了说服父母退学。A轮和B轮都是被投资人“抢投”的。我们的想法是保持稀释率在5%左右,建立“弹药库”,用来投入产品研发,比如推荐激励、创新的消费级产品,扩大市场供给端,也会投入更多后训练数据,提升模型表现预测能力。我们ML团队最大的瓶颈其实就是做更多评测和训练环境,这也正好和我们的主营业务吻合。
Jacob:你们的客户群有很多基础模型公司,你怎么看这个领域的未来?有人说会只剩两三家巨头,你觉得最后会有多少玩家?他们会怎么差异化?
Brendan:这是个好问题。我坚信OpenAI现在和未来都会是产品公司,而不是API公司。很多API能力会大宗商品化,关键是怎么和客户场景深度集成,这才是定价权的来源。但市场足够大,每家都能在细分领域吸收大量价值。哪怕有实验室专注做对冲基金,也能赚巨额利润。大家喜欢用经验主义说这些公司估值虚高,但如果你从“自动化知识型工作”这个第一性原理出发,这些顶级团队一定能做出伟大的公司。
Jacob:现在模型跨领域泛化很强,所以感觉赢家通吃,还是会有细分领域的佼佼者?你举的对冲基金例子很有意思,说明应用层还有很多空间。
Brendan:对,聚焦很有价值。我觉得做通用API不是好生意,最终只会剩下一家。更多价值会在应用层,每个垂直领域和客户场景都需要深度定制。
Jacob:你觉得这些定制模型会需要很多复杂的标注吗?
Brendan:肯定会。比如每个交易公司都能针对自己独特的交易分析做评测,判断哪些结论准确,哪些不准,能否转化为盈利。如果有一流的后训练团队专门优化交易分析,比人类交易员更快,那机会大得惊人。
Jacob:感觉有些交易公司最优策略应该是暂停交易,花九个月专注后训练模型。
Brendan:我其实很惊讶,很多交易公司在后训练上的投入比想象中少,可能是地理原因——他们主要在纽约,实验室和研究员都在旧金山,而且顶级研究员更想做AI,不愿意只为赚钱。但我相信他们会大举投资,和前沿实验室形成九位数、十位数的合作,定制自己的应用。
Jacob:你现在在AI领域最大的未知是什么?如果能知道答案,对公司运营会有什么影响?
Brendan:还是你刚才说的,人类五年、十年后会做什么。这是个极难的问题,也是公司使命的一部分。我们有各种直觉,但世界变化太快。很多工作会被自动化,我们需要更好地理解未来人类的新机会和经济角色,这很重要。
Jacob:你觉得政策层面还有哪些事可以做?其他机构应该扮演什么角色?
Brendan:当然。很多监管者关注的事情其实离老百姓很远。我觉得未来两三年大家会真正担心的是,AI模型在很多工作上比人厉害多了,我们要想办法让人类融入经济,这一定会发生。这不是那种小概率、大影响的风险,是必然趋势。所以监管者应该更主动地规划未来,管理公众预期,告诉大家几年后世界会变成什么样。
Jacob:确实,现在连再培训什么都还说不清。
Brendan:没错。但我希望这方面能有更多讨论,更多关注下一代工作的形态,也给学生和求职者更多指引。
Jacob:我们喜欢在采访最后做一轮快问快答,问些宽泛的问题,想听听你的简短看法。你觉得AI领域有什么被高估、又有什么被低估了?
Brendan:好问题。我觉得评测(E-vals)被严重低估了。虽然现在已经很火,但我认为还是被低估了很多。
Jacob:人类能力的最后堡垒。
Brendan:我觉得被高估的是SFT、RHF这类传统数据。有公司在这上面花了几十亿美元,其实根本没必要,花费应该减少一个数量级,这个趋势会变。
Patrick:过去一年你在AI领域有什么观点发生了变化?
Brendan:有意思。我对自动化软件工程的时间线预期大幅提前了。以前我对研究员说的“AI能写出比人类更高命中率的PR”的时间表还持怀疑态度,现在我觉得今年晚些时候、明年上半年就会实现,这会非常酷。
Jacob:是啊。其实两年前,如果说AI能有现在的能力,大家都会觉得要改变世界了,但真的实现后,反而没那么震撼。你觉得这会不会导致软件工程就业出现大规模变化,还是只是10%~20%的变化?
Brendan:关键还是我们之前说的“需求弹性”。短期内我不担心工程师失业,因为工具让他们更高效,反而会有更多软件要写。但岗位性质肯定会变,懂产品、懂模型短板的人会更有比较优势。
Patrick:除了你们公司,你最看好哪家AI创业公司?
Brendan:我很看好OpenAI的代码能力,虽然这个答案不够“逆风”。我也觉得未来会有大量定制智能体,有一家在法国的公司还在隐身状态,我很感兴趣。
Jacob:那你肯定不能在播客里说,等录完我们再逼你透露(笑)。