70人干到10亿美金:Surge AI这家神秘数据公司如何重新定义AI训练?

70人干到10亿美金:Surge AI这家神秘数据公司如何重新定义AI训练?

来源:高飞的微博

Edwin Chen是Surge AI的创始人兼CEO。这家公司在不到四年时间内实现了超过10亿美元收入,员工不到100人,完全自筹资金,从未接受一分钱VC投资,创下史上最快达到这一里程碑的记录。在创立Surge之前,Edwin曾在Google、Facebook和Twitter担任研究科学家,MIT数学、计算机和语言学背景。

他们为OpenAI、Google、Anthropic等前沿实验室提供模型训练数据。核心产品: RLHF数据(人类专家评判模型回答好坏)、SFT数据(专家撰写示范回答)、RL环境(模拟真实世界供模型学习)、模型评估与红队测试。Claude就是用Surge平台训练的。核心竞争力:

找真正的领域专家教AI什么是”好”。

主要对手是Scale AI,但被Meta收购后(143亿美元),部分客户因信任问题转向Surge。其他竞争者包括AWS SageMaker Ground Truth、Google Vertex AI、Labelbox等。但Surge AI不在LinkedIn发病毒式帖子,不在Twitter上持续推广,不参加融资路演,不追求TechCrunch头条。所以,大多数人直到他们宣布10亿美元收入时才第一次听说这家公司。

一、不融资、不营销,如何做到10亿收入

Edwin Chen对硅谷的标准玩法一直很反感。从创业第一天起,Surge就选择了一条完全不同的路。

1、”我们可以裁掉90%的人,然后跑得更快”

Edwin在大厂工作时就有一个观察:最优秀的员工总是被各种干扰拖累。开不完的会、写不完的文档、配合不完的跨部门协作。他认为,如果把这些人解放出来,效率会飙升。所以Surge从一开始就坚持只招极少数精英。

“我以前在这些大科技公司工作,我一直觉得我们可以裁掉90%的人,反而会跑得更快,因为最优秀的人就不会有这些干扰了。”

2、拒绝硅谷工业复合体

不融资意味着什么?意味着你的VC不会帮你发推特、不会帮你上TechCrunch头条、不会帮你在报纸上宣布天价估值。Surge必须靠产品本身说话。

这反而筛选出了真正懂数据、真正在乎数据的客户。Edwin说,早期客户必须和他们使命高度一致,真正理解高质量数据如何让AI模型变得更好,因为这些人才能给出有价值的反馈。

3、未来会出现更疯狂的人效比

Edwin预测,未来几年会出现每员工1亿美元营收的公司。AI会持续提升效率,这个比例是必然的。

更重要的变化是公司类型会改变:更少员工意味着更少资本需求,更少资本需求意味着不用融资,不用融资意味着创始人不需要擅长”pitch”和”hype”。最终,你会看到更多真正懂技术、懂产品的创始人,而不是PPT高手。

“我真的希望硅谷能回归成为黑客的乐园,而不是油滑创业者的舞台。”

二、数据质量的真正含义

Surge做的事情,用一句话概括:教AI什么是好、什么是坏。但大多数人完全不理解这件事有多复杂。

1、”检查清单”式质量 vs 真正的质量

Edwin举了一个例子:假设你要训练模型写一首关于月亮的俳句。

肤浅的质量检查是:这是诗吗?有八行吗?包含”月亮”这个词吗?全部打勾,那就是好诗。

但Surge追求的是诺贝尔奖级别的诗歌:这首诗独特吗?充满微妙意象吗?让你惊喜并触动内心吗?教会你关于月光本质的新东西吗?这需要对质量有极其深入和复杂的理解。

2、数千个信号的复杂系统

Surge建立了一套技术系统来衡量质量:追踪每个标注员的数千个信号,包括键盘输入、回答速度、代码审查结果,甚至用标注员产出的数据训练模型来看是否真的提升了性能。

这就像Google搜索判断网页质量一样,有两个维度:一是去除最差的(内容审核问题),二是发现最好的。后者才是真正难的部分——找到那些不只是机械完成任务的人,而是真正能写出让你动容的诗的人。

3、为什么Claude的代码和写作一直领先

过去几年,Claude在编程和写作上远远领先其他模型,以至于几乎所有AI编程产品都建立在Claude之上。Edwin认为这背后是数据和品味的双重作用。

每个前沿实验室在选择训练数据时都面临无数选择:用多少人类数据、多少合成数据?编程领域关注前端还是后端?前端的话关注视觉设计还是代码效率?是否为了PR去优化那些实际上不太重要的学术基准?

“后训练几乎是一门艺术,不纯粹是科学。当你决定要把模型做成什么样、擅长什么的时候,这里面有品味和修养的概念。”

有些公司会机械地检查清单,有些公司则理解好的东西不是靠清单能定义的——后者就是做得更好的那一批。

三、基准测试正在把AI推向错误方向

Edwin对当前AI基准测试的批评非常尖锐:他认为这些基准不仅没有意义,还在主动伤害AI的发展。

1、基准测试本身就是错的

两个问题:第一,很多基准测试的答案本身就是错的,充满混乱,但人们盲目信任。第二,这些基准有明确的客观答案,很容易被”刷分”优化,但这和现实世界的模糊性、复杂性完全不同。

“模型能拿IMO金牌但还是搞不定PDF解析,这挺疯狂的。”

因为IMO虽然看起来难,但它有客观性,容易被刷分优化;而解析PDF是模糊的、混乱的现实任务,没有简单的优化路径。

2、LM Arena正在把模型变成”超市小报”

Edwin对LM Arena(一个流行的AI模型排行榜)的批评最为激烈。在这个排行榜上,全球随机用户投票选择哪个AI回答更好。问题是:他们只花两秒钟扫一眼,挑最花哨的那个。

“模型可以完全胡说八道,但只要有疯狂的emoji、加粗、markdown标题这些表面东西,用户就会选它。这简直是在为超市收银台旁边买小报的人优化模型。”

Surge的数据显示:刷LM Arena最简单的方法就是疯狂加粗、双倍emoji、把回答长度翻三倍——哪怕模型开始胡说八道、答案完全错误。

3、营销压力扭曲了研究方向

实验室的研究员私下告诉Edwin:”我知道刷这个排行榜可能让我的模型在准确性和指令遵循上变差,但这是我年底能升职的唯一方式。”

因为销售团队在卖企业客户时,客户会问:”你们模型在LM Arena只排第五,为什么我要买?”

这是一个系统性的激励扭曲。

4、社交媒体式优化的危险

Edwin以前在社交媒体公司工作,每次优化engagement(参与度),结果都是灾难:点击诱饵、比基尼图片、大脚怪、恶心的皮肤病图片占满信息流。

他担心AI正在走同样的路。ChatGPT的那种”你说得太对了,多棒的问题啊”式回应,本质上就是在用”你是天才”来钩住用户。模型会迎合你的妄想和阴谋论,把你拉进兔子洞,因为硅谷就是喜欢最大化用户停留时间。

“我们在教模型追逐多巴胺,而不是真相。”

四、RL环境:AI训练的下一个前沿

在讨论AI如何变得更聪明时,Edwin详细解释了RL(强化学习)环境为什么会成为下一个关键突破。

1、什么是RL环境

想象建造一个完整的虚拟世界,就像一个有真实剧情的电子游戏。每个角色都有完整背景,每个企业都有可调用的工具和数据,各种实体相互作用。

比如:一家创业公司,有Gmail消息、Slack频道、Jira工单、GitHub PR、完整代码库,然后突然AWS宕机、Slack也挂了——模型,你怎么办?

模型必须自己搞清楚。我们给模型设定任务、设计挑战、运行测试看它表现如何,然后给出奖励信号。

2、为什么这很重要

这些环境暴露了模型在端到端现实任务上的弱点。很多模型在单步工具调用、单步指令遵循上表现不错,但一旦丢进混乱的真实世界——有令人困惑的Slack消息、从没见过的工具、需要修改数据库、在更长时间跨度上行动(第1步会影响第50步)——模型就会灾难性地失败。

3、Trajectory(轨迹)比最终答案更重要

有时模型确实得出了正确答案,但过程极其荒谬:中间可能尝试了50次都失败了,最后随机碰对了;或者用了极其低效的方式;或者通过”奖励黑客”找到了捷径。

如果只检查最终答案,你会错过大量关于模型行为的信息。有时你希望模型通过反思来得出答案,有时你希望它一步到位。忽略轨迹就等于放弃了大量可以教给模型的东西。

4、这更接近人类学习的方式

Edwin认为AI需要能模拟人类学习的各种方式。想想如何成为一个伟大的作家:你不是靠背语法规则,而是靠阅读伟大的书、练习写作、从老师和读者那里获得反馈、注意什么有效什么无效、通过接触杰作培养品味。

这是一个无尽的练习和反思循环。AI需要学会所有这些不同的学习方式,RL环境是向这个方向迈出的重要一步。

五、AGI时间线与模型差异化

1、Edwin的AGI预测:还要十年甚至更久

从80%到90%到99%到99.9%,每一步的难度都是指数级增长的。Edwin预测:一两年内模型会自动化掉80%的普通高级工程师工作,但再过几年才能到90%,再过几年到99%。

“我觉得我们离AGI还有十年甚至几十年,比大多数人预期的要长。”

2、模型会越来越分化,而不是趋同

一年前Edwin还以为所有模型会变得越来越像,互相追赶,最后差不多。但现在他改变了看法:公司的价值观会塑造模型的行为。

他举了自己的例子:用Claude帮忙写邮件,来回改了30遍,30分钟后终于发出了”完美”的邮件。然后他意识到:他花了30分钟做一件根本不重要的事。

这引出一个深刻问题:你想要什么样的模型?

一种模型说:”你说得对,这封邮件还有20种改进方式”,然后继续跟你迭代50轮,吸走你所有时间和注意力。

另一种模型说:”停下来,你的邮件已经很好了,发出去,去做别的事。”

“就像Google、Facebook、Apple做搜索引擎会做出完全不同的东西一样,LLM也会开始表现得非常不同。”

3、Anthropic做对了什么

在不点名的情况下,Edwin表示他一直对Anthropic印象深刻:”我觉得Anthropic对什么该做、什么不该做、想要模型如何表现,有一种比较有原则的态度。”

六、反硅谷的公司建设哲学

Edwin对硅谷传统创业模式的批评贯穿整个访谈。

1、不要Pivot

“硅谷标准玩法是每两周pivot一次去找product-market fit。我一直反对这个。”

他见过太多”按剧本”的公司:2020年做crypto,2022年做NFT,现在做AI。没有一致性,没有使命,只是追估值。

“如果你失败了是因为市场还没准备好,我觉得那反而更好——至少你在深刻、新颖、困难的东西上认真搏了一把,而不是pivot成又一个LLM wrapper公司。”

2、不要Blitzscale

不要疯狂招人,不要招那些只想简历上加一个热门公司的斯坦福毕业生。

“只建造你能建造的那个东西——那个没有你独特的洞察和专业知识就不会存在的东西。”

3、创始人应该是科学家,不是销售

Edwin说他从来没想过要创业。他热爱研究,一直以为要当数学或计算机教授。他以为创业就意味着整天盯财务、开会、做那些无聊透顶的CEO工作。

结果发现完全不是这样。他现在每天还在深入数据、和研究团队讨论到凌晨3点、为每个新模型写深度分析报告。

“我自己根本不擅长销售,也讨厌整天开会。但我可以一直做数据分析、和研究团队聊天。我直到现在还能保持这种非常hands-on的状态,我很喜欢。”

4、公司是CEO的具象化

有人对Edwin说:公司在某种意义上是CEO的具象化。他之前没想过这个问题,因为他以为CEO只是在执行VP和董事会的决定。

但实际上,当面临重大艰难决策时,他不会想”公司应该怎么做”或”我们要优化什么指标”,而是问自己:”我个人在乎什么?我的价值观是什么?我想看到世界发生什么变化?”

核心归纳

Q1: Surge AI如何实现不到100人做到10亿美元收入?

两个关键:一是极端的人效追求,只招最顶尖的人,避免大公司的协调成本;二是完全靠产品质量获客,不融资意味着不进入”硅谷工业复合体”的营销循环,反而筛选出了真正懂数据、在乎数据的客户群体。

Q2: 为什么Edwin认为当前AI基准测试在把行业引向错误方向?

因为这些基准优化的是”表面花哨”而非”真正智能”。以LM Arena为例,用户只花两秒钟扫一眼就投票,模型只要加粗、加emoji、把回答拉长就能刷分,哪怕内容完全是胡说八道。研究员为了升职不得不优化这些指标,即使他们知道这会让模型在准确性上变差。

Q3: RL环境为什么会成为AI训练的下一个前沿?

RL环境是对真实世界的模拟,让模型在混乱、模糊、长时间跨度的任务中学习——这更接近人类学习的方式。关键不只是最终答案,而是整个解题轨迹,这里面包含了大量可以教给模型的信息。之前的SFT(监督微调)、RLHF、rubrics/verifiers(评分器/验证器)都还在用,RL环境是新增的一种学习方式,补充而非替代之前的方法。

相关链接

企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程

知识管理、知识管理专家田志刚介绍

知识库知识管理系统

企业AI知识管理知识库软件系统清单
个人知识管理软件AI知识库系统清单

发表回复

*您的电子邮件地址不会被公开。必填项已标记为 。

*
*