第36章 算法封神百分之一的碾压(第3页)
“林总……您……您之前是搞算法的?”
“不是。”林辰平静地说,“但我认识一些搞算法的朋友,交流过。这个架构,是我根据他们的思路,结合咱们的具体问题,设计的。”
他说谎了,但面不改色。
陈默信了。因为除了“认识一些天才朋友”,他无法解释为什么一个产品出身的COO,能写出这种级别的算法代码。
“那……预训练模型呢?”另一个工程师问,“没有好的初始权重,再好的架构也白搭。”
“有。”林辰打开浏览器,输入系统提供的一个网址,“这是一个开源的客服领域预训练模型,训练数据包含五千万条对话,覆盖金融、电商、教育等十几个行业。我们可以直接拿过来,用我们的数据微调。”
网页打开,是一个英文的技术博客,最新一篇论文的链接。论文标题是《CPT:ALarge-ScalePre-trainedModelforerService》,作者来自斯坦福。模型权重开源,可以免费商用。
陈默点开论文,快速浏览摘要和方法部分,然后倒吸一口凉气。
“五千万条对话……Transformer-XL架构……三十亿参数……这,这比云图用的模型还大!”
“但我们可以用知识蒸馏的方法,把它压缩到适合我们线上部署的规模。”林辰说,“虽然会损失一些精度,但基础能力在,微调后应该能突破99%。”
“何止99%……”陈默的声音在发颤,“如果这个模型真像论文里说的那么强,我们微调好了,可能……可能能到99。5%。”
99。5%。
比云图的99%,高出0。5个百分点。
在AI领域,0。1%的差距就是一代。0。5%,是碾压。
会议室里,五个算法工程师的眼睛,同时亮起饿狼般的光。
“干不干?”林辰问。
“干!”五人异口同声。
“好。”林辰起身,“陈默,你带两个人,负责模型压缩和微调。另外两个人,按照我写的架构,把新模型搭起来。我负责协调算力资源——李总会批的。目标是,四十八小时内,新模型上线测试。”
“四十八小时?这不可能——”
“可能。”林辰打断他,“因为我们没时间了。三天后,是项目结项汇报。李总会邀请几个潜在客户来参观。我们要在那天,用新版本的‘星语’,现场演示。效果,必须是碾压级的。”
他看向每个人。
“这是最后一仗。打赢了,‘星语’翻身,咱们所有人,升职加薪。打输了……”他没说下去,但意思都懂。
“明白了。”陈默深吸一口气,“林总,我们拼了。”
“不是拼了。”林辰拍拍他的肩,“是必须赢。”
3
四十八小时后。
凌晨五点,星河科技机房。
GPU服务器群的轰鸣声震耳欲聋,机柜上的指示灯疯狂闪烁。散热系统的风量开到最大,但室内温度依然逼近三十度。陈默和两个工程师蹲在服务器前,眼睛死盯着监控屏幕。
模型训练,第九十七轮。
准确率:99。37%。
距离99。5%的目标,还差0。13个百分点。
“损失函数还在下降,但很慢了。”一个工程师哑着嗓子说,“可能到瓶颈了。”
“继续。”陈默说,“把学习率再调低一半,训练轮数加到一百二十轮。另外,把数据增强的强度提高,特别是那些长尾样本,多生成一些变体。”
“可时间……”
“时间我来抢。”林辰的声音从门口传来。
他走进机房,手里提着四杯咖啡,眼睛里的血丝比陈默还重。过去四十八小时,他睡了不到四小时,大部分时间在协调资源、解决阻塞、给团队打气。
“李总特批,把公司所有空闲的GPU算力都调给我们了。”林辰把咖啡分给大家,“另外,我从朋友那儿借了二十张A100,远程集群,已经接入。现在我们的总算力,是之前的四倍。”
陈默眼睛一亮:“那训练速度能提升三倍!一百二十轮,原来要八小时,现在三小时就够了!”
“所以,继续。”林辰说,“我要在上午九点前,看到准确率突破99。5%。”
“是!”