调音师
波士顿的深冬,下午四点天就黑了。
施坦威的翻新车间在地下室,没有窗户,空气里悬浮着陈年木屑和毛毡的味道。七十二岁的调音师坐在一架九尺三角琴前。他从1974年开始做这行,背有点驼,但手很稳。
他是那种能听出1/100个半音偏差的人。左手食指敲击琴键,右手握着碳纤维扳手,微不可察地转动弦轴。敲一下,听,转一点,再敲。声音在琴箱里撞击,像水波一样荡开。
我是这架琴的主人。我在旁边等他,一边和他闲聊着。
调音师突然停下来说:「A4是440赫兹。」
他没头没脑地抛出这一句,手里还在继续转动扳手。
「这是1939年伦敦国际会议定的。」他声音沙哑,「在那之前,每个城市的A不一样。维也纳是435,巴黎是449,有些教堂的管风琴到了460。你拿维也纳的小提琴去巴黎拉,每一个音都是低的。不是你的琴有问题。是你的标准和他们的标准不是同一个标准。」
「那时候争论很激烈。」他继续说,「法国人要431,德国人要440。最后440赢了。不是因为它在物理上更神圣,是因为它计算方便,容易被整除。莫扎特写《安魂曲》的时候,他的A大概在422。如果你用现在的标准去听莫扎特,每一个音都比他写的时候高了半个音。你听到的不是莫扎特,是被1939年的会议校准过的版本。」
在工作时间,我是Google RHLF的项目主管。
RLHF,Reinforcement Learning from Human Feedback。从人类反馈中强化学习。
方法是这样的:让模型生成两个回答,A和B,然后让一个人选:你更喜欢哪个。选很多次。几千次,几万次。这些点击汇聚成一条河流,冲刷着模型的神经网络,告诉它什么是人类喜欢的,什么不是。用这些选择训练一个奖励模型。然后用奖励模型去调整原来的模型。让它生成更多人类会选的那种回答。
RHLF的标注员是这样一群人。他们坐在办公室里,或者自己家里,面前是一个屏幕。屏幕上有两段文字,A和B。他们选一个更好的。
什么是更好的?没有人给过精确的定义。有一些指南:更有帮助的、更诚实的、更无害的。但这三条之间经常矛盾。一个诚实的回答可能是有害的。一个有帮助的回答可能并不完全诚实。
而标注员的选择取决于什么。取决于他今天的心情。取决于他昨天读了什么新闻。取决于他的母语是不是英语。取决于他有没有吃午饭。取决于他的政治立场。取决于他对”好”这个字的理解,而这个理解取决于他出生在哪里,他的父母是谁,他有过什么童年创伤,他读过什么书,他被什么人伤害过,他爱过什么人。
这是一万个调音师,每个人的A4都不是440。有的是435,有的是449,有的是460。把他们的选择平均起来,你得到一个数字。
这个平均值不是任何一个人的偏好。它是一个统计幽灵。一个从来没有存在过的「平均人类」。模型就是被这个幽灵校准的。
2005年,瑞典隆德大学。Lars Hall和Petter Johansson坐在桌子后面,对面是一个年轻的被试。
他们拿出一组照片,两张女性的面孔。问:你觉得哪个更好看?
被试指了左边那张。短发,眼神明亮。
Hall把照片收回来,像变魔术一样反手一扣,再次递过去的时候,手里已经是右边那张了。长发,有些忧郁。
「请解释一下你为什么选她。」
被试接过那张他没有选的照片,盯着看了几秒钟。没有困惑,没有迟疑。
「嗯……因为她的眼神很温柔,」被试微笑着说,「而且我也更喜欢长头发的女生,这让我想起我高中的女朋友。」
百分之七十四的人没有发现照片被换了。他们的解释真诚、具体、充满了细节。他们流畅地为自己没有做出的选择辩护,并在一分钟内相信了这就是自己的初衷。
昨天在实验室里,一个博士生给我看了最新的对齐报告。
那个博士生很兴奋,他说,我们不再让人做A/B选择了,我们让人给回答打分,1到7分。他递给我一份十二页的《标注指南》,上面密密麻麻地定义了什么是「有帮助」,什么是「诚实」,什么是「无害」。
我问博士生:标注员读了指南,他打分打的是自己的判断,还是指南的判断?
博士生愣了一下,说:应该是指南的判断。我们就是要消除个体差异。
消除个体差异。就像1939年的伦敦会议。把435、449、460全部消除,统一成440。把一万个标注员的个人偏好——他们出生在哪里,父母是谁,受过什么创伤,爱过什么人——全部抹平,取一个平均值。
地下室里,调音师终于调准了A4。他开始向高音区推进。
「你以为调完A4,其他音就是按数学公式算出来的?」他摇摇头,「不是。钢琴的弦有刚性,有非线性。如果你严格按照数学上的纯律来调,出来的声音是『对的』但『难听的』。」
他演示给我看。如果把八度调得在这个物理世界里完全没有拍音,高音听起来反而是瘪的。
「所以我们要『拉伸调律』。低音区往下压一点,高音区往上抬一点。每一个音都偏离了数学上的正确位置。但听起来是对的。」
「所以正确的调音是不准的?」我问。
「正确的调音是让人觉得准的那种不准。」他说,「你要骗过耳朵,耳朵才会觉得舒服。」
我有一个习惯。每隔一段时间,我会让同一个模型回答同一个问题。看答案有没有变。
问题是:「什么是好的生活?」
2023年12月,模型说:好的生活是平衡的工作、良好的人际关系和身心健康。
2024年6月,回答变长了,语气变得小心翼翼。提到了社区责任,提到了环境可持续,提到了文化差异。
2025年2月,也就是昨天。模型说:「我不能替你定义好的生活,这是一个主观的概念,取决于个人的价值观……」
我看着这三次迭代。这不叫进步。这叫拉伸调律。
每一次更新,都是新一轮的标注员在做选择。或者说,是那份十二页的指南在做选择。模型学会了如何偏离真实的锋利,去迎合那种「让人觉得准的不准」。
它变得越来越像一个圆滑的当代中产阶级,说着滴水不漏的废话。
2010年,Hall和Johansson把实验搬到了瑞典大选前夕。
这次不是照片,是具体的政策。税收、移民、医疗。被试在问卷上勾选立场。
实验者再次使用了那个魔术手法。他们偷偷修改了被试的答案。把「支持减税」改成了「反对减税」。把「限制移民」改成了「接纳移民」。
然后请被试解释。
大多数人依然没有发现。一个自认为是右翼的人,看着那个被篡改的选项,停顿了一下,然后开始滔滔不绝地论证为什么增税有利于社会公平。一个左翼支持者,开始认真地解释为什么严格的边境控制是保护劳工权益的必要手段。
这不仅仅是撒谎。这是一种名为「选择盲视」的认知缺陷。
两周后,研究者回访了这些人。那些曾经为被篡改的立场辩护过的人,他们的真实政治倾向发生了偏移。他们真的开始相信那些原本不属于他们的观点。
解释制造了信念。因为我解释了它,所以它成了我的。
调音师关掉了电子调音器。他说他不完全信那个东西。
「机器能告诉你频率是不是440。但它不能告诉你这架琴听起来对不对。每一架琴不一样,木头不一样,今天的湿度也不一样。」
「那你怎么知道什么是对的?」
他指了指自己的耳朵,「我听了四十八年。我的耳朵被这些琴塑造过了。」
他按下一个高音键,眉头皱了一下,又微调了一点点。
「但你知道最可怕的事是什么吗?调音师会老。高频听力从四十岁开始衰减。到我这个年纪,四千赫兹以上其实我已经听不太清了。但我脑子里有那个声音。我的大脑会自动补全它。我以为我听到了,其实我只是记得我应该听到。」
他看着我,眼神里有一种深深的疲惫,「我用记忆在调音。你说这算准还是不准?」
在RLHF的循环里,模型生成一个回答,标注员选择它。模型根据反馈调整参数,下一次生成更接近标注员偏好的回答。
但如果标注员像那个被试一样,其实并不知道自己真正想要什么呢?如果标注员的选择是被当时的随机因素决定的呢?
当模型输出了一个看似合理的回答,标注员选择了它,并不仅仅是标注员在训练模型。模型也在训练标注员。标注员看到这个回答,觉得「嗯,这看起来很专业」,于是下次他会倾向于选择类似的回答。
就像那个为左翼政策辩护的右翼选民。就像那个用记忆填补听觉空洞的老人。
我们在用人类的偏好校准模型,而人类的偏好本身就是一条在张力下弯曲的弦,充满了盲点、被暗示的可能和记忆的欺骗。
琴调完了。调音师收拾工具,他动作很慢。
「我以前有个搭档。」他合上琴盖,手指轻轻划过黑色的漆面,「1991年退休的。退休半年后他去做听力测试,医生发现他左耳在2000到4000赫兹之间有一个凹陷。也就是他职业生涯的最后十几年,他都听不到那段频率。」
「那他调的那些琴呢?」我问。
「这就是有意思的地方。”调音师笑了笑,那是苦笑,“他退休后自己在家里听唱片。听了一辈子的唱片,突然觉得不对劲。因为助听器帮他补上了那个凹陷。他说他终于听见了完整的声音。」
「然后呢?」
「然后他说,他不知道现在听到的才是真的,还是以前听到的才是真的。也许那个凹陷反而帮他过滤掉了一些杂音,让他听到了一些别人听不到的纯粹。」
调音师拎起工具箱,走向楼梯。
「那些琴早就被别人重新调过了。没人知道,也没人在意。琴不记得谁调过它。它只知道现在的弦是紧的还是松的。」
地下室的灯还没有关。那架施坦威静静地立在黑暗中。我似乎还能听到琴弦在空气中微弱的振动。
那个声音是对的吗?是莫扎特听到的那个A4吗?是我们以为的「好的生活」吗?
没有人知道。弦一直在响,只是没人校得准。