周志云说话酸溜溜的。
岑言不好意思地笑了笑,他连忙起身,搬来了一把椅子,请周志云坐下。
“伯父,您这话可折煞我了。”
岑言刚要开始客套两句,周志云就很是不耐地摆了摆手。
“你小子装什么文化人呢,你说说吧,要怎么解决?”
“什么怎么解决?”
岑言笑着,装傻。
“我女儿被你拐来了,钱被你拐来了,我连大徒弟都被你拐来了,你人呢?”
周志云吹鼻子瞪眼。
他倒是没有对岑言用什么手段和心眼,这也不过是他们两个人的小交流。
说的暧昧一点,那叫情趣。
他就是过来给岑言上上眼药,催他赶紧来做一做人工智能。
“哈哈哈……老周,瞧你这话说的。”
岑言哈哈一笑,猛猛眨眼。
“咱们一家人不说两家话,你的不就是我的,咱们分那么清干嘛?对吧?”
“谁跟你一家人呢?别跟我套近乎。”
周志云伸手拨开了岑言揽过来的胳膊。
“你小子没大没小的。”
周志云白了岑言一眼,终于说了正事。
“我来找你,不是讲横向的事,我那边都处理好了,我今天找你,是想跟你聊一聊AI圈子的事情。”
“AI吗?我最近关注不是很多。”
“这半年AI圈可算是翻天覆地了,从3月份AlphaGo之后,整个世界都闹腾得很。”
周志云叹了口气。
“在闹腾啥呢?”
岑言其实没有特别有实感。
最近几个月,他忙得团团转,根本分不出精力去深入研究一下最近的AI圈子。
周志云无奈地笑了笑。
“从3月份以后,我就经常接到投资人和记者的电话,他们这些平时完全不碰AI圈子的,现在对AI关心得很,都在问我一个问题。”
“什么问题?”
“AI是不是真的要来了?”
说到这个,周志云和岑言对视了一眼。
真正干这行的都知道。
现在AlphaGo的声势虽然浩荡,但是距离真正的通用智能还有很远的距离。
“我现在反而是在盯着无监督学习和更好的优化方法,毕竟监督学习现在大家其实都已经玩得很透了。特别是今年大洋对面,他们在GAN上投入很大,伊恩他们都把GAN推到新高度了,能生成非常逼真的图像,甚至是视频。”
周志云在说的时候,真真切切地充满了焦虑。
但他的焦虑和大众对于AI的焦虑不同。
更多的是一个从业者的身份。
“生成对抗网络确实是亮点,我也有关注。它本质上是在做密度估计,这应该算是无监督学习的核心了吧?不过你都说AlphaGo了,那你怎么看DeepMind?”
岑言陪着周志云聊着。
他其实已经有了最终的答案,但那也只不过是一种现象,而非底层逻辑。
就算他拿出来说。
说实话,AI未来的发展会是怎么样?有各种各样行业内专家的预测。
但本质上来讲,最核心的并不是应用,不是现象,而是逻辑,而是最基本的理论。
“DeepMind吗?历史性的,但是还是在我的意料之中。毕竟本质上是深度神经网络加强化学习,再加上蒙特卡洛树搜索,在超大算力下的完美结合。它只是证明了一件事情,在规则明确、信息完备的复杂决策任务里,AI可以拥有全面超越人类顶尖水平的实力。就像大家以前觉得围棋这件事取决于人,起码还要10年,但现在就做成了。”
“突破的速度很快,这一次结束,深度学习应该出圈了吧?资本的人才都涌进来了。”
“不是,你跟我聊天,为什么一边聊一边搜消息呢?你小子平时都不看的是吧?”
周志云看着,一边陪他聊天,一边用电脑查着最近深度学习相关的新闻和资讯。
实在是有些绷不住了。
你这是陪我搁这硬聊呢?
“也没有,我就是大概看看。”
岑言讪笑两声。
为什么查,他自己心里清楚。
要是等等陪着周志云聊的时候,把一些现在还没面试的东西甩出来,那自己可就得被他追着问了。
“算了,毕竟你忙嘛。资本狂热其实是把双刃剑,一方面算力、数据、人才都在快速地聚集,你看谷歌就知道了。谷歌4月份的时候把TensorFlow分布式放出来,训练速度快几十倍,整个AI社区都活起来,一堆不是搞深度学习的人都涌进来搞。”
周志云深深地叹了口气。
“太多人以为堆数据堆GPU就能解决一切,忽视了基础理论,现在业界焦点太偏应用和工程了,可根本没多少人关心,为什么深度学习这么有效?泛化性的理论边界在哪里?怎么小模型从小样本里学习?这些问题不突破的话,过几年又得遇到瓶颈。”
岑言看着各类相关的新闻。
只能说周志云的担忧不无道理。
谷歌推出的AlphaGo主打的就是算,百度的老李也开始在京城五环试无人车,大搞自动驾驶。
各大企业也开始全面开放框架和模型,大搞开源竞赛。
虽然岑言从后来人的角度看。
这些其实都没算搞成。
或者说只是短暂的辉煌了一阵。
因为在明年就会有极具冲击力的事物诞生,从而彻底改变整个AI发展的走势。
但就当下从业者的角度来看,所需要担忧的东西还是太多了。
“我还是认同你大部分观点的,未来的突破一定是能让AI举一反三,从少量数据里抽象出通用规律,这才是更接近人类智能的路。”
岑言随口答道。
“你认同,那就来给我帮忙啊。”
周志云盯着岑言,正色道。
“岑言啊,你觉得有没有可能我们能做出一个新的架构,抛弃掉目前统治了整个序列的RNN。毕竟RNN的长序列遗忘问题还是太严重了,而像DeepMind他们大规模使用的Seq2Seq、Attention、LSTM,串行计算慢,难以并行,长程依赖弱的瓶颈又无法突破。难道我们真的没有办法可以去掉RNN,只用Attention来做序列建模吗?”
“嗯……嗯?!”
岑言听到周志云抛出的思路。
原本眼睛还在盯着屏幕上的新闻,下一秒就猛然转头看向了周志云。
不是。
老周,你在说什么?
你知道你在说什么吗?
周志云也吓了一跳。
他就是提出自己最近这段时间睡不着觉,反反复复想来想去,找到了一个看似出口的设想。
没想到这话刚出口。
岑言就突然转头,用一种震惊又充满敬佩的眼神盯着自己看。
那种感觉很微妙。
就好像自己是什么从外太空突破大气层猛然撞击地球表面的天外来物。
简单来说。
那眼神不像是在看个人。
“怎么了?你了解这方面吗?”
周志云缩了缩脖子。
一把年纪了,在这16岁的少年面前,竟然还产生着些许退缩的想法。
“不是,老周,你怎么想到这方面的?”
岑言是真没想到周志云会考虑这个。
因为这个思路就真正地导向了明年那一篇AI领域最具里程碑意义的论文。
《Attention Is All You Need》
由谷歌布莱恩团队在2017年发表的论文,他提出的Transformer架构,彻底抛弃了此前统治序列建模的RNN和LSTM,完全依赖自身的自注意力机制,成为后面所有大语言模型的基石,包括GPT、BERT、LLaMA等在内,直接开启了生成式AI时代。
“想到这方面会很奇怪吗?”
周志云挠了挠脑袋。
他觉得岑言这家伙有点奇怪。
“注意力机制不是在14年的时候就已经提出来了吗?只不过之前是用来解决RNN长序列遗忘问题,是RNN的补丁。”
“这个我知道,但你有没有大概的思路?”
岑言追问道。
如果只有他自己一个人,那他不一定感兴趣,会来碰这篇AI领域的开山论文。
因为他是真的没有办法再挤出太多精力。
要知道,论文不是简单的论文。
论文只是在项目实践的过程中产出的附加物而已。
他想要写出这篇论文,就必须要抢在谷歌团队的前头,加班加点的干。
那可能就偏离了他目前的路线。
而且就算提出了Transformer架构,没有资本和巨头企业的支持和实践的话。
只停留于高校层面。
那也很难获得足够的利益,只不过成为供养别人的花泥而已。
“我有个大概的想法,但是现在的思路也不太清晰。”
周志云老老实实说道。
他有些好奇地打量着岑言。
“听你这话的意思,你也感兴趣?”
“要是你真想做这个的话,那我还真有思路。”
岑言看着周志云,既释怀又开心地笑了。
这饭都喂到自己嘴边了。
自己要是还不吃的话,那就真的是有点不识抬举了。