周鸿祎:“垂直化”是大模型未来发展趋势

[探索] 时间:2024-05-10 16:53:58 来源:蓝影头条 作者:知识 点击:28次
来源:亚布力企业家论坛CEF

  周鸿祎|360集团创始人

  9月20日,垂直化2023亚布力智能制造发展论坛在安徽合肥顺利开幕。周鸿展在【开幕演讲】上,模型360集团创始人周鸿祎分享了他对于如何把握大模型发展机遇的垂直化商业洞见。

  周鸿祎表示,周鸿展360在调研中发现,模型很多企业对大模型非常神往,垂直化但顾虑也多。周鸿展在企业级场景中,模型通用大模型由于存在痛点无法直接被使用。垂直化对此他建议:企业除了走OpenAI的周鸿展“通用大脑”路线之外,还可以选择走“垂直大模型”的模型发展路线。

  他呼吁各位企业家,垂直化不要等大模型无所不能时才开始干。周鸿展只要想清楚大模型的模型应用场景,现在就可以“Just do it”。

  以下为周鸿祎演讲内容(有删节):

  当前,以大模型为代表的人工智能科技浪潮席卷而来,既是国家抢占全球产业链高点的关键,也是企业发展的重要驱动力。大模型作为通用人工智能奇点的突破,将为“智能制造”带来全新的发展机遇。今天,结合360的探索和实践,我想分享下对于如何把握大模型发展机遇的思考。

  首先,大模型很热,但我认为它绝不是风口和泡沫,而是代表了一次工业革命的机会,将大幅提高生产力和生产效率。作为新一代的生产力工具,大模型具有前所未有的理解、推理和规划能力,标志着通用人工智能时代和强人工智能时代的到来,有引领一场新工业革命的潜质,将给人类社会带来深远的影响,包括颠覆信息生产模式、变革人机交互方式、重塑产业格局,最终推动数字化进入智能化的顶峰。

  现在国家一个很重要的战略是产业数字化,我认为只有把大模型“拉下神坛”,去提升政府和企业的生产力和生产效率,让每个企业都用得起,它才能真正引领工业革命,这也是顺势而为。

  有人说“大模型是操作系统”,我不同意。我认为,大模型不会成为操作系统,而是会成为数字化系统的标配。我们以电脑的发展为例,电脑在1946年被发明的时候只被气象局、军方等少数单位使用,真正引发工业革命是个人电脑出现后,每个人都用得起,解决大家生活工作中的很多问题,这才产生了信息革命。

  现在,高通已经尝试将大模型运行在手机上,苹果尝试让大模型在电脑上跑起来。未来每台汽车上也会搭载私有的大模型。因此,大模型在中国的发展之路绝对不会走向垄断,而是会变得无处不在,每个家庭、企业、政府部门都有至少一个大模型。我认为,所有有能力的科技企业都应该坚定地发展自己的大模型战略。

  作为国内排名第二的搜索引擎厂商,360在发展大模型上有天然优势,原始技术基因上与大模型技术一脉相承。这些年我们一直追踪Bert、T5等前沿NLP技术发展,以了解搜索意图、优化搜索结果。为深入研究人工智能,2015年360成立了人工智能研究院,并从2018年开始探索多模态、计算机视觉等大模型相关技术。被科技部授予国家人工智能新一代开放创新平台。

  随着ChatGPT横空出世,360凭借多年积累,数据方面的优势,自研了认知型通用大模型“360智脑”,也使得360的AI技术从能看能听的感知阶段,进化到能理解能思考的认知阶段。360也有幸作为人工智能“国家队”的一员,参与大模型国家标准编写等工作。

  360智脑拥有多轮对话、生成创作、知识问答等十大核心能力,能够覆盖市面上所有的大模型应用场景。今年3月底,360智脑率先在搜索场景落地,目前已经迭代到4.0版本,不仅拥有业界领先的跨模态生成能力,还可以创新地生成各种AI数字人,作为企业的数字员工,个人的数字助手,为办公提效。

  360智脑发布至今获得了行业的广泛认可和好评,不仅是通过信通院“可信AIGC”认证的国产大模型,还在SuperCLUE等第三方权威测评中稳居第一梯队。8月份,在认可度最高的中文预训练评估任务中,智脑的部分表现已经接近国际先进水平,达到GPT3.5的能力。

  目前,360智脑已通过备案,即将正式上线并逐步向公众开放。当然,目前大模型的能力还远没有达到顶峰,刚过了拐点,未来可能指数级增长。但我认为,大家不要等大模型无所不能才开始干,不要在一场新的工业革命到来之际袖手旁观。各位企业家,只要想清楚场景,现在就可以开始干了,套用耐克的广告语:“Just do it”。

  调研中,我们发现很多企业对大模型非常神往,但顾虑也非常多。通用大模型在企业级场景中没办法直接用,有以下几个方面的痛点:

  第一是缺乏行业深度。如果你真的用过ChatGPT,会震惊于它什么都会,但如果问一些行业深度问题,它就会说很多正确的、概念性的废话。

  第二是不懂企业。公有大模型与企业内部知识不互通、结合不了,不能满足企业内部业务开展的要求。

  第三是数据安全隐患。这其中有三个层面的问题,首先组织内部的Know How是核心竞争力,不适合训练到公有大模型中;其次,使用公有大模型容易造成内部数据泄露。另外,公有大模型无法实现组织内部权限的分级管理,也存在安全隐患。

  第四是知识更新不及时。企业内部数据更新迭代速度很快,公有大模型的知识更新跟不上这个速度。

  第五是胡说八道,也就是幻觉和知识模糊。对于一个帮助别人写剧本、写小说的大模型来说,可以看成创造力的表现,比如林黛玉倒拔垂杨柳。但这种不可信的缺点在企业场景中应用就是致命的,比如大模型开的药方你敢不敢相信。

  第六,大模型的训练和部署,普通企业无法承担。千亿参数的通用大模型训练一次需要数千万美元,另外还有调优、硬件和人员成本,现在训练大模型的人比大模型还要贵。

  第七,无法保证大模型的所有权。大模型一旦把企业的核心知识训进去了,就会成为这些组织、机构的核心资产,企业对核心资产的所有权非常在意。

  GPT发展的两条路线:一条是像OpenAI一样,做通用大脑,另一条是做垂直大模型,可以概括为六个方面的“垂直化”:

  第一是行业深度化,在通用大模型的基础之上做行业数据的训练,就像把一个本科生训练成博士生。

  第二是企业个性化,做大模型一定要跟某个企业的技术诀窍、商业秘密的内部知识紧密融合。

  第三是能力专业化,一个模型解决一个专业领域的问题,这样企业里将来会有多个模型。由于每个模型都通过垂直语料训练,在限定了知识范围的同时,能有效解决大模型胡说八道的问题。

  第四是规模小型化,企业专有模型用百亿模型即可,训练、调试、部署成本可能会急剧降低。

  第五是部署分布化,将来模型既可部署在云上,也可以在终端上。

  第六是所有权私有化,让企业大模型的所有权和控制权完全由企业所有。

  大模型能力专业化的一个好处是,对安全问题会有帮助。聚焦专项能力的垂直大模型更容易实现知识对齐,如果它要对齐的能力很多,就很难消除“幻觉”问题。

  大家用过ChatGPT一定被它胡说八道的能力伤害过,另外ChatGPT出现后,也接连爆发了严重的安全事故,例如三星在20天内接连发生了3起机密数据外泄事件。所以,目前各国政府对人工智能的治理都高度重视,相继出台管理办法,希望引导大模型健康的发展。

  大模型作为数字技术,是一把“双刃剑”,所以我们在构建企业级大模型的时候也一定要遵循“安全原则”,我总结为“安全、向善、可信、可控”四原则。安全指的是网络安全、数据安全、算法安全;向善主要是指生成内容安全,如今AI换脸、换声诈骗泛滥,不要让AI成为诈骗者的工具;可信就是要切实解决大模型“幻觉”所造成的知识模糊和胡编乱造的问题。最后是可控原则,要确保人在决策回路上,不能出现不可撤销的结果。 

  之前有人问我,360为什么要做大模型。原因很简单,安全是大模型发展的底线,也是未来大模型的核心竞争力。很多人关心大模型会不会产生意识,最终威胁人类,马斯克甚至联合千名专家请愿暂停GPT研发。面对未知的安全挑战我没办法给出结论,但我认为,只有躬身入局,把大模型的黑盒子打开,知道大模型的工作原理,才能更好地研究大模型安全。360作为全球领先、中国第一的数字安全公司,拥有国家级的安全能力,我们研发的360智脑已经能够把大模型在网络安全、数据安全、算法安全、生成内容安全的风险降到最低。

  接下来,我简单分享一些如何让大模型在政府、企业落地的实战想法。

  第一,我建议大家仔细把大模型的能力好好做个筛选,把它最通用的、最成熟的能力先拿出来。大模型的能力看起来花里胡哨,又能解奥数题,又能写代码。实际上以360智脑为例,最常用的功能有两个:一个是知识问答,一个是写作生成。在这两大能力的基础上,寻找办公场景最能提升效率的点切入,“小切口、大纵深”, 比如面向企业,对上提供决策分析、对下提供办公写作、对内提供知识管理、对外提供客户服务,这些都是经过大量市场调研获得的典型刚需场景。

  第二,我经常跟客户讲,大模型不是万能的,现有的很多业务系统短期内是无法被大模型取代的。现阶段大模型最恰如其分的角色是先担当“副驾驶”,可以给建议、给导航,但是不能乱抢方向盘,与现有系统保持一定隔离度。

  未来,在逐渐成熟之后,可以逐步发展出AI Agent模式,将大模型与规划、记忆、工具、行动相结合。不仅能够作为“大脑”识别人类的意图,智能化地思考分解任务,还能够长出“手脚”,会自动化地使用工具、调用各种API,执行任务、解决问题,达成目标结果,破除大模型“有脑无手”的困局,成为一种通用的数字人系统。

  第三点是坚持以人为本、好用易用的原则。大模型作为生产力工具的价值是为人赋能,不是为了裁员。人工智能办公系统的用户实际上是单位里从上到下的所有人,只有大家都用起来,才能对AI的理解更深入,最终提升企业效率。我认为现在的大模型还比较难用,提示词抬高了普通人使用大模型的门槛,毕竟不是每个人都能成为提示词专家。我的建议是把大模型包装成数字人,通过与“有灵魂”的数字人对话,来降低大模型的使用难度,让AI成为政府的数字专家和企业的数字员工。

  随着开源生态的完善,我判断,大模型本身将不再成为壁垒,未来大模型很可能变成“白菜价”,真正的挑战在于如何实现垂直大模型的深度定制。所谓的深度定制是指数据的筛选、数据的训练、结合企业需求的模型精调,与企业内部系统、API的挂接,最终的系统交付等一系列环节的定制化,这些精细化的服务最好由有B端经验的厂商提供。我总结,完成深度定制需要四个步骤:第一步是业务分析与场景的选择,找到发展垂直大模型的业务场景;第二步是数据的采集与清洗,也就是找到与大模型配套的专有数据,数据的质量非常重要;第三步是训练企业专有大模型,将数据训练进大模型;最后一步是开发企业场景化应用,将大模型与自身的业务系统结合。

  需要强调一下,垂直大模型也要在经过市场验证、有足够能力的通用大模型基础上训练,只有这样才能达到事半功倍的效果,企业在选择基础大模型的时候一定要慎重。

  基础大模型的衡量标准可以分为六个维度:通识性、安全性、可控性、可用性、易用性、扩展性。360的基础大模型由业界领先的视觉大模型、大语言模型、多模态大模型组成,支撑起一个“训推一体化工具平台”,涵盖标准平台、推理平台、训练平台、算力平台,能够为企业级用户提供一站式的大模型开发套件。

  我认为,大模型的进化才刚刚开始,现在是百模大战,未来很有可能演化为“万模群舞”。360已经推出了企业级AI大模型解决方案,研发构建起大模型的训练框架,把垂直大模型的数据处理、预训练、精调的复杂过程流水线化、标准化,支撑完成了五六个行业垂直模型的训练和部署交付。

  此外,360还发起了GPT产业联盟,与生态伙伴广泛合作,推动大模型在各行各业加速落地。

  举个360智脑落地城市的案例,大家都知道,现在各地都在积极推行“一网统管”。以360智脑在某地落地城市治理项目为例,在360智脑大模型的赋能下,当地的“一网统管”系统变得更加智能高效,为事件的发现、受理、跟踪、结案的各个环节实现大幅提效。“一网统管”的三个重要指标是“响应率、解决率、满意率”,在大模型的加持下,我预计未来城市治理事件响应率将提升10%以上,及时解决率提升30%以上,满意率提升20%以上。真正实现城市安全运行管理从看不见向看得见转变、从事后处置向事前预警转变、从被动应对向主动防控转变。 

  我再举两个行业合作的案例。在合作中,360提供基础大模型、算力和语料,合作方仅需提供独有的行业数据和内部知识。一个是360与税务行业头部企业“中税集团”合作推出了“税务行业标准大模型”,在360智脑的基础上经过税务专业数据训练后,该模型已经成为专业的税务助手,在注册税务师考试中打败了ChatGPT;另一个是与企业服务机构创业黑马合作研发了面向科创服务领域的“天启大模型”,目前服务企业规模已经超过500家,使企业服务效率大幅提升超过20倍,解决了长期困扰创业黑马的发展难题。

  360希望能够帮助合肥发展大模型产业,打造“大模型工厂”,也就是大模型的研发和训练中心,同时发展和培养一种新的职业——人工智能训练师,帮助企业训练、精调、部署垂直大模型。通过对大模型进行垂直场景的训练,助力当地的大模型落地,为产业数字化赋能。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:梁斌 SF055

(责任编辑:娱乐)

    相关内容
    精彩推荐
    热门点击
    友情链接