判断是否满足条件的IF函数 2层嵌套用法 更多的嵌套可以此类推
615
2022-05-29
预训练大模型,打开不止一种可能
有这样一个案例,某工厂的IT负责人想要应用AI,咨询之后却发现开发成本过于高昂,人才、算力、算法等条件都不具备,最后只能作罢。
有这样一位朋友,任职于某家AI技术供应商,他们推出的行业解决方案备受好评,却在实际进入商业化阶段时,发现大量客户都需要定制,只能让公司的AI专家四处奔波,解决用户的细小问题,最后利润却连人员开支都无法覆盖。
还有这样一条朋友圈。一位AI开发者惋惜中文世界缺少NLP预训练大模型。
其实,这些朋友都遇到了同一个问题:一道名为“AI开发”的产业天堑。
当我们谈论AI时,总是会将其效果等同于数据集、实验室里的能力上限,却忽略了在真实的开发、训练、部署中,AI有着太多碎片化与不确定性的因素。
而跨过这道产业天堑,也成为了一场名副其实的全球大赛。这场赛跑中至关重要的一个项目,名为“预训练大模型”。
随着预训练大模型的产业与战略价值在国际上水涨船高,致力于将AI打造为新一代信息技术核心抓手的中国产学各界出现了一丝紧迫。
中文世界什么时候能迎来强大可用的预训练大模型?面对AI开发的”天堑”,我们有什么自己的办法?
就在种种声音不断发酵的同时,华为云人工智能领域首席科学家田奇,正在和团队一同发起一次安静的冲锋。
这次冲锋的“行动代号”,叫做——盘古大模型。
「天堑:“小作坊式”的AI开发困境」
「登山:盘古大模型背后的人与事」
▲华为云人工智能领域首席科学家田奇
一是模型要大,可以吸收海量数据;
二是网络结构要强,能够真正发挥出模型的性能;
三是要具有优秀的泛化能力,可以真正落地到各行各业的工作场景。
首先希望能够把机器视觉、NLP、语音,甚至计算机图形学的技术结合起来,形成多模态的预训练大模型,增强预训练大模型的跨领域协同落地能力。另外,AI落地中还有一个十分重要的领域是科学计算。海洋、气象、制药、能源等领域都有非常强的知识处理、科学计算需求。用AI的方法去求解科学计算问题,将带来十分巨大的价值潜力。因此,多模态与科学计算大模型,将是盘古接下来的行动方向。
比如盘古大模型的核心开发过程,就是以海量有效数据进行模型预训练,实现吸收大量数据之后模型的高度智能化。那么数据和算力从哪来,就成为了一个不可避免的问题。在盘古大模型的开发过程中,华为云和合作伙伴的多方推动,确保了所需数据和算力资源的保障到位。即便华为云拥有非常好的资源基础,在千亿参数级别的大模型面前也依旧存有不足。为此,田奇团队也尝试了与合作伙伴的紧密协作,调用一切资源来确保开发进度。比如团队同著名的鹏城实验室合作,来完成了模型训练所需算力的调用。
而在数据与知识方面,盘古大模型的开发团队经常会遇到与具体行业知识体系、数据系统的磨合问题。这在具体过程中经常出现意料之外的情况。比如一个医学数据的准确率,显然应该依赖医学专家的解答。但在具体场景中,往往医学专家的判断准确率也并不高。这类AI之外领域的情况,往往会反向影响到盘古大模型的开发。为此,盘古大模型团队需要与具体的行业专家进行反复沟通,希望把他们的知识或者直观感受,转化为计算机可量化的模型,再对训练出的结果进行协同验证。这种反复的跨领域沟通与联动,才最终可能达成关于AI的共识。
在盘古大模型开发过程中,由于时间紧张、训练难度与成本巨大,并且还是机器视觉与NLP双模型同时推动,自然也需要内部团队的“超人发挥”。田奇回忆,团队内部都叫自己“特战队员”,也就是角色需要经常互换,工作需要相互支撑,哪里缺人就要哪里顶上。一个技术专家,同时也要考虑很多产业落地、商业化方面的问题。
「翻越:“盘古”究竟强在何处?」
在盘古大模型的研发过程中,团队考虑到真实的产业场景中有大量的内容理解需求,比如客服、智能对话等等,于是给盘古大模型设计了兼顾架构,能够同时高度完成理解与生成任务。
再来看具体一些的技术差异,盘古大模型提升了复杂场景下的小样本学习能力,在小样本学习上提升了一个数量级的效率;在微调能力上,盘古有着更好的数据吸收理解能力,可以在真实行业场景中实现提升模型应用效率;再有盘古大模型集成行业知识的能力更强,其采用更灵活的模块设计,能够根据业务场景适配,提升行业知识吸收效率。
在技术创新之外,盘古大模型还是一个天然瞄准AI工业化、现实场景的项目。在立项初期,研发团队就与合作伙伴进行了一系列商业化验证,以此来确保盘古大模型走入真实产业场景中的效率和适应能力。这也是盘古大模型的一大差异,它并非为实验室而创造,而是将工业化的一面放置在更高的优先级上,是一个以商业价值驱动研发创新的“实干模式”大模型。
再有一点,盘古大模型与其他预训练大模型不同的是,团队在研发过程中始终将生态化、协同创新纳入考量。盘古大模型是一个开放、可生长的产业实体,可以在各个环节引入生态合作伙伴、高校科研团队,以及不同领域AI开发者的力量。这样确保了盘古大模型的融入产业链条、搭建生态化合作的能力。从技术化、商业化、生态化三个层面,盘古大模型都驱动预训练大模型来到了一个新的阶段,建造了一个从“作坊式AI开发”到“工业化AI开发”的转换基础。
「灯火:大模型的落地进行时」
在盘古大模型的落地进程中,也经常会出现一些“意外”的惊喜。比如在国家电网巡检案例中,由于缺陷种类复杂多样,传统的方法需要对大多数缺陷适配特定模型以满足性能需求,这样100余种缺陷就需要开发20+模型,造成模型迭代维护困难。盘古大模型创造性的提供行业预训练模型,得益于其突出的特征表达能力,能够做到一个模型适配所有缺陷,极大地提升了开发效率,同时识别效果平均提升超过18%。同时,盘古大模型还提供针对零样本的缺陷检测功能,能够快速判断新缺陷,真正贴近于巡检员能力。
「思索:AI工业化的虹吸与变革」
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。