进而推断盘古是通过“升级改造+架构调整”,修改自Qwen模型,而非从零训练。
报告发出后,相关话题迅速在全网发酵。
华威诺亚方舟实验室,也很快便发布声明。
承认部分基础组件,参考开源实践,但严格遵循了开源许可证,也清晰标注了版权声明,符合开源协作精神。
并强调,分组专家设计、昇腾优化算子、混合精度训练策略等,均为自主研发。
至此,舆论热度逐渐开始消退。
但谁承想,次日,一名自称盘古大模型团队成员的用户,又再次跳出来,以“亲历者”的口吻,爆出诸多核心内幕。
称管理层施压研发团队,要求快速出成果、不计代价。
研发团队为赶进度,直接复用了Qwen-2.5权重,仅修改少量代码,确实存在“套壳、续训、洗水印”等现象。
这下子,舆论直接炸锅了,正反双方喜闻乐见的展开激烈对冲~
多家第三方机构,也展开独立测试。
结果显示,盘古Pro MoE与Qwen-2.5,注意力参数相关性,确实高达0.89~0.93。
但其他模块相关性,仅为0.5~0.6。
说白了,就是盘古Pro MoE,确实参考并复用了Qwen-2.5的部分组件与训练成果,但符合开源规范。
核心架构与硬件优化,则由华威自主研发,而非简单套壳。
至于技术层面的架构趋同与数据重合,核心原因在于,业内95%以上的大模型,均基于Transformer架构。
核心组件设计,天然高度相似。
MoE等主流架构,也被业内广泛采用,进一步压缩了创新空间。
与此同时,互联网公开语料,占训练数据60%以上,导致模型参数分布自然趋同。
但在舆论层面,由于过多势力卷入、鱼龙混杂,真真假假已经完全分不清了。
或者说,所有人都只顾着输出情绪,已经没人在意真假了。
事实上,也不只是华威。
国内有名有姓的大模型,基本都或多或少,遇到过类似的争议。
最典型的一种话述,便是“国产模型吹√⑧,还不是蒸馏海外大模型”。
emmmmmmmm
就很难评~
这背后也清晰映射出,现如今的AI竞争有多激烈。
说实话,这也就是极光通用大模型,采用自主开发的“星数架构”,与Transformer架构,存在本质差异。
训练预料,也基本都是来自极光生态内。
性能更是全球独一档~
要不然,洛川估计,他们现在的处境,不见得就比其他友商好到哪儿去。
摇头感叹一番,洛川也没再想七想八,抿了口热茶,便扯过笔记本,处理起今日份的文件。
第一份资料,就让他瞬间来了兴致。
极光A4新型试验卫星的测试报告,终于出炉了~