在导师眼里是浪费经费的垃圾。
在学生眼里是延毕的噩梦。
但在岑言的AI模型里,这些全都是价值连城的负样本金矿。
这世界上最重要的其实是资源。
而资源的流转、质变,此时取决于自己的双手。
岑言彻底想通后,整个人来了精神。
他登录了自己各个社交平台的账号。
账号认证早就由周妍全部弄好了。
【科研工作者/晨星实验室主任】
简单,直接。
没有把其他媒体为他加冕的乱七八糟的头衔往这上面堆。
但就只是把这两个头衔挂在这里。
就足够岑言在网络地带掀起风浪。
之前那一场又一场轰轰烈烈的舆论战,早就给他积累了庞大的基础流量。
岑言双手搭在键盘上,快速编辑了一条动态。
“各位学术界的同仁,我是岑言。”
“晨星实验室目前正在开发一款面向材料计算与逆合成的AI平台。为了训练模型,我们现在急需海量的真实实验数据。”
没有什么虚头巴脑的话。
根本不担心正在进行的项目被人跟风。
如果岑言没有记错的话,现在韩国那边也已经开始推进这一AI平台的研发。
“注意!”
“我们不要那些写在论文里光鲜亮丽的成功案例。”
“我们要的是你们的失败数据。”
“那些产率低得让人流泪的路线。”
“长出奇怪副产物的反应釜记录。”
“死活跑不通的DFT计算日志。”
“想不通为什么会爆炸的化合物。”
“把你们的失败通通打包发给我!别管它多离谱,只要数据真实、参数记录完整,我们照单全收!”
“平台上线后,所有提供有效数据的同学,送一年高级会员。数据质量特别高的,晨星实验室直接按条打钱。发家致富的机会就在你们的废液桶里。接收邮箱:xxx@jjtu.edu.cn。”
点击,发送。
岑言端起保温杯。
保温杯里泡的是绿茶,白棠泡的。
别问我为什么强调,岑言让的。
他静静地看着屏幕,其实心里也没有太多的底。
毕竟这也是他第一次主动号召网友。
他也做好了号召执行力不足的准备。
只不过。
网络时代的传播速度总是超乎想象。
他的微博在发出去不到半小时内,转发的战场就直接转移到了qq里。
特别是各大高校的班级群,学生群都活跃了起来。
学术圈的苦逼研究生们、学校里眼巴巴地只能看别人发论文的本科生。
平时最缺的就是情绪价值和外快。
他们就像是成群结队的鬣狗,看到这条消息,纷纷闻风而动,流着哈喇子,双眼放光,双腿双手放飞了狂奔。
不用怀疑,他们用的表情包就这个。
“前排膜拜岑神!岑神收破烂了,大家快把实验室的废液桶保护好!”
“尊嘟假嘟?我的学术垃圾居然能换钱?义父,我这有三年没跑通的有机合成记录,全是对照组全灭的数据,能换台PS4吗?我的地址是xxxxxxx”
“楼上是不是xxx大学xx系的xxx同学?我是你的导师xxx,你就待在那不要乱动,我现在马上就来找你。”
“我曹,发言需谨慎,怎么导都来逛岑神评论区啊?那哥们要被线下真实了吗?”
“我宣布,岑主任就是我们全体科研牛马的再生父母!不说了,我去翻我研一时候的废稿了。”
“弱弱问一句,做饭把锅炸了的数据收吗?我怀疑我加的不是盐而是硝酸钾。”
看着屏幕上不断滚动的评论和满屏的抽象梗,还有那消除不了的红点。
岑言松了口气。
大学生果然是最纯真澄澈的群体。
你只要看到他们,稍微给他们点甜头,他们连自己的底裤都能翻出来发给你。
随着消息的持续发酵,学术论坛、贴吧、社区、聊天软件都开始搬运这条消息。
到了晚上八点。
岑言设置的那个专用接收邮箱,提示音已经响成了一片。
他点开邮箱后台看了一眼。
未读邮件数字直接飙升到了999+,而且还在以肉眼可见的速度跳动。
附件类型千奇百怪。
有规规矩矩的Excel表格。
有直接扫描打包的PDF格式手写实验记录本。
还有人直接把跑崩了的代码日志压缩成几十个G的包传到了网盘里附上链接。
第二天一早。
晨星实验室的办公区。
李智顶着一头乱发站在岑言的工位旁,盯着那个已经被塞入数不清邮件的收件箱。
瞪大双眼,脸都绿了。
“主任,这......这怎么洗啊?”
李智指着屏幕上一封刚点开的邮件,语气充满绝望。
“你看这个记录,‘加入适量催化剂,加热到有点烫手,观察到溶液变成诡异的屎黄色’。”
“这数据tm的能喂给模型吗?”
李智嘴巴瘪得说不出话。
“难不成真有人会用我们的平台去合成屎吗?”
旁边的徐博文端着一杯咖啡走过来。
这位新入职的副研究员最近特别积极地主动找活干。
特别是几天相处下来,他已经完全适应了晨星实验室的氛围。
太舒服了,太自由了。
如果可以,他甚至想在这里养老。
不说别的,他都已经和岑言、李智他们混熟了。
就像此时,他自来熟地凑到屏幕前扫了一眼,乐了。
“这哥们绝对是个人才,‘有点烫手’这种温度参数,起码也是六十度起步。不过他整这活,人工洗肯定也洗不出来。”
张若谷也跟着围了过来,他推了推眼镜,态度十分积极。
毕竟有徐博文这个对照组。
他可不想被徐博文比下去。
“主任,我和老徐刚来,手里还没分配具体课题。这洗数据的杂活交给我们吧。我们以前也没少干这种扒数据的苦力活。”
这两位副研究员主动放下身段,完全没有一点顶尖海龟的架子,显然是想用最快的速度融入晨星实验室的核心圈子。
“你们顶尖研究所也得干脏活吗?”
李智眨眨眼,有些好奇地问道。
“那肯定,脏活不让实习生和RA干,让谁干啊?”
徐博文理所当然地答道。
“诶,对了,我前几天不是看白姐好像有在整理数据,不问问她吗?”
徐博文突然想到,好奇地开口问道。
他看向李智,李智看向岑言。
岑言一乐,笑了笑。
“你白姐啊?她已经被蒸馏了。就在模型里呢。”
“哈?”
徐博文目瞪口呆。
“咱这模型就是万魂幡,到时候可不止白棠,咱们要把所有科研牛马的魂都蒸馏进来,别啊了,开工吧。”
岑言老气横秋地拍了拍徐博文和张若谷的胳膊。
“你们俩负责牵头带几个新来的成员一起做数据预处理。”
“李智,你主要负责定清洗规则。”
岑言思索片刻,给出建议。
“纯人工洗肯定不行。AI的事就得让AI来干。要保证原则的一致性。”
“上正则匹配写个自然语言处理脚本,把那些非标准的口语化术语直接剔除。”
“我们只提取明确带有温度数值、浓度百分比、物质化学式和产率数字的条目。”
“那些连物质名称都写不清楚的邮件,直接进垃圾箱说再见。”
“没问题!”
有人指路,李智又重新有了方向。
他拍拍胸膛,再度答应了下来。
可是。
又是三天的时间。
果不其然,李智又是眉头紧锁地拿着一份数据提取报告走到岑言桌前。
“主任,数据我们洗出来了几百万条,但喂给模型做特征提取时服务器会卡死。”
“也找不到为什么报错......”
李智挠挠头,指着报告上的参数图表。
这下他自己都有些不好意思了。
可又不可能为了他自己较真,把实验室的项目进度落下。
“这些失败数据的特征维度太高了。温度、压力、催化剂种类、溶剂比例、反应时长......加起来有几万个特征值。我用现成的算法去跑,计算复杂度呈指数级上升,进度条一晚上才走百分之二。”
岑言看向李智屏幕上的代码。
“大师兄,要不你改叫沙师弟吧。”
岑言打趣道。
李智不好意思地老脸一红,猛猛挠头。
“我......我后面会努力补的,现在我担心影响大家进度,我今晚就补!”
“没事,我就开个玩笑,我看出来了,你这特征提取的思路太传统,那么多特征值去跑,把机房GPU全烧了也跑不完。”
“你把核心算法给我看看。”
岑言看了许久,缓缓开口。
总算是找到一样的问题和解决方法了。
“不要硬算,很多变量在失败的实验中对结果的影响微乎其微,要用降维算法。”
岑言动手修改了特征处理的逻辑。
“用主成分分析结合局部保留投影,把那些方差极小的冗余特征全砍掉。再加上决策树做预筛选,做好丢弃。”
修改结束。
按下运行。
黑色的终端窗口里,代码快速滚动。
原本卡顿得像蜗牛的数据流,瞬间流畅地跑了起来。
李智站在旁边。
看着屏幕上的预估计算时间瞬闪,嘴巴微微张开。
“就改这么点?速度能提十倍?”
李智满脸不可思议。
艹?
大家学的是一个东西吗?
“基操,勿6。”
岑言双手插兜,不知道谁是对手。