他放下咖啡杯,身体前倾,凑近屏幕仔细阅读后续的内容。
随着视线扫过岑言给出的那段伪代码和动态遮罩机制的思路,利昂整个人都不好了。
这段逻辑太清晰了。
抛弃固定的桶,在计算环节直接通过掩码屏蔽无效数据。
这不仅仅是代码层面的优化,这完全是一种降维打击的工程思维。
他之前隐隐约约有这个方向的想法,但是一直没有很好的执行方案。
利昂快速尝试这段伪代码的运行结果。
几分钟后。
“砰!”
他一巴掌拍在办公桌上,把旁边工位的同事吓了一跳。
玛德,这个逼!
高级工程师不得了是吧?平时见不到人,来了就搁这吓人?!
无视了同事的蛐蛐,利昂双眼放光。
绝妙的思路!
这种动态Batch的处理方式,至少能把现在的训练效率提升百分之四十以上。
利昂立刻想要回复这个黑猫用户。
他敲了几行感谢的话,但觉得不够,又删掉。
他迫切地想知道这个人是谁,想和他探讨这种机制在分布式训练下的具体实现细节。
哪怕对方在Issue里狠狠的喷了他,那些垃圾话比他看NBA的时候,那些球员喷的垃圾话狠多了。
可利昂怀疑自己有抖M倾向。
不然怎么被他那么骂,自己不仅不会不高兴,还很想要再被他骂几句呢?
利昂百思不得其解。
他在回复框里写下长长的一段话。
“朋友,你的思路简直棒极了!我立刻去测试这套方案。能冒昧问一下你的名字吗?或者留个邮箱?我们团队非常需要你这样懂底层逻辑的工程专家,有没有兴趣聊聊?”
如果可以的话,利昂还是很想把这位拥有敏锐嗅觉的牛人挖到自己团队里来。
要知道现在整个世界能够在这个级别上碾压自己的工程师可不多。
这种水平,还是在野的。
那简直就像是在打邦邦手游的时候,每日免费三抽,抽出了根本不在普池里的限定五星SSR卡。
对,就是不可能。
回复完邮件,利昂连咖啡都顾不上喝,直接打开代码编辑器,开始按照岑言的思路重构底层的处理逻辑。
与此同时。
美国加州,山景城,谷歌总部。
此时的自由美利坚已经是下午时分。
卢卡斯盯着屏幕上跑出的训练日志,眉头皱成了一个川字。
他本来就长得有点老了。
自从来了谷歌之后,他觉得自己的衰老速度变得更快了,每天不是皱眉头就是闭眼。
好像那种下一秒就能倒头睡着的感觉。
干这行的,别人不知道。
卢卡斯觉得自己可能是在折寿。
希望自己能够在谷歌干出一番事业,然后拿着这份事业跑出去养老。
毕竟工程师的巅峰期也就那么段时间,在这种大厂里干活,虽然累,但也确实有好处。
至于有人说,谷歌不累?
要是不累的话,怎么那么多程序员在赚够了钱之后,就选择裸辞去当数字游民?
只是谷歌给的钱多,有性价比而已。
卢卡斯其实也蛮想当数字游民的。
不过他不是很想回波兰,风格上不太搭,他觉得法国可能是个不错的选择。
毕竟他之前也在法国待过,南法那边的风景不赖。
“卢卡斯,昨天你那个问题怎么样了?我看你还在GitHub上和人争论?”
同事好奇地问了一下卢卡斯。
“我还在想吧,听上帝的。”
卢卡斯很是无奈地回答道。
他手中的项目,堆叠多层LSTM网络的实验再次遇到瓶颈。
模型参数量变大后,训练速度呈指数级下降,多张GPU卡根本跑不满,大部分算力都在等待上一个时间步的计算结果。
这就是循环神经网络的致命缺陷。
他烦躁地切开网页,进入那个开源社区的讨论帖,想看看有没有其他同行看到,然后提出什么新点子。
帖子下方多了一条回复,发帖人是个黑猫头像。
卢卡斯看到开头那句“循环结构,死路一条”,心里顿时升起一股火气。
fxxk!
哪来的傻呗?!
这种发言无异于对着一个医生说,别学医了,学医死路一条......
不对,你要是真这么说,他可能还要得感谢你捏。
言归正传。
可惜卢卡斯是一名严谨认真的研究员,他强忍着不快继续往下看。
当他看完内容的时候,心里的火气瞬间消失了,产生了一种难以言喻的震撼。
岑言给他的冲击,比岑言给利昂的更大。
抛弃时序计算?
全并行?
卢卡斯开始跟着岑言的公式推导。
键盘声快得跟飞起来一样。
最后,他停下手,看着那个简洁的注意力公式,整个人愣在了椅子上。
逻辑完美闭环。
如果真的按照这个公式去构建模型架构,长序列的依赖问题就不再是问题,因为任何两个位置的交互都只需要一步计算。
更重要的是,矩阵运算天生适合GPU的大规模并行。
卢卡斯感到一阵头皮发麻。
这个匿名用户不仅懂算法,而且数学功底深不可测,甚至比他们这些专门研究模型架构的人还要超前。
这个黑猫到底是谁?
辛顿实验室什么时候培养出来的天才?
还是哪个隐世的对计算机突然感兴趣的数学大牛?
不知道,人家都回我帖子了,那我直接问一问。
卢卡斯立刻在帖子下方回复。
“sir,您的推导过程完美无瑕,这种全注意力的架构构想极具启发性。但我还有几个关于位置信息如何保留的疑问想请教。另外,能否给个联系方式?我代表我的团队诚挚地邀请你进行深度交流。”
如果这位人才没有团队的话。
那卢卡斯愿意向谷歌推荐他。
最好是能打包来给自己当同事,这样自己不懂的东西就能马上问他了。
发完回复,卢卡斯站起身,在办公室里来回踱步,脑子里全都是那个公式。
他必须把这个人找出来!
京海。
早晨的阳光穿透窗帘缝隙照进房间。岑言在闹钟声中醒来。
他洗漱完毕,走出房间,看到白棠正在厨房里笨手笨脚地煎鸡蛋,梁晓鸥则坐在岛台旁一边吃全麦面包一边看算法视频。
岑言跟两人打了个招呼,拿了一片面包叼在嘴里,顺手打开电脑。
现在还早,休息一下再去实验室。
他刚睡醒,还有点起床气,打开电脑也不知道干嘛,下意识地登录GitHub,结果看到消息提示红得发亮。
他点开一看,利昂和卢卡斯的回复双双躺在列表里。
两人的语气都充满了急切和求知欲,甚至主动抛出了谷歌的橄榄枝。
岑言神色放松地笑了。
鱼咬钩了,而且咬得很死。
果然,想要钓这种技术人,就得用技术的路子。
你看他们,被我骂了还要谢谢我呢。
但岑言没有急着给出技术上的解答,这时候解答得越多,主动权反而越小。
他不是来跟他们玩学术交流的,他是来挖人的!
这种时候就该把锄头挥起来。
岑言分别给利昂和卢卡斯发去了私信。
“感谢你们的认可,我目前不打算公开身份,也没有加入谷歌的计划。相反,我手里有一个即将改变NLP领域的新架构正在筹备中。”
岑言继续写道。
“我正在组建一个顶尖的初创研发团队,坐标中华。我们有充足的资金,可以提供不限制数量的P100显卡算力集群,且不设任何发文限制,给予完全的学术自由。”
“如果你们厌倦了大厂里繁琐的汇报流程,想真正做一点能写进计算机历史的东西,可以考虑加入我,一起创造历史。”
发送。
大饼画出来了。
但这并不是最终的一步,这只是刚刚开始。
岑言甚至不在意他们接不接受。
他直接关了GitHub页面,不再去管它。
有这时间等他们回复,不如看看白棠把鸡蛋煎得怎么样了。