澳洲国产大型车型迎来中场争夺战(组图)

在澳大利亚澳洲新闻




互联网和科技圈掀起的大模型浪潮,又迎来了新的战斗。

今年3月以来,国内已有20多家企业进入大型模型赛道。从百度的“文心易言”、阿里的“同易千文”发布,到360的“红孩儿”、商汤的“天天新”、网易的“语言”、科大讯飞的“星火”、昆仑万维的“天工”上线等等,然后是腾讯的《混元》、京东的《ChatJ》、华为的《盘古》的预告。互联网巨头和科技公司纷纷展露“肌肉”,在这场大机型混战中,谁也不愿掉队。

在这一波浪潮中,大机型的发展阶段已经从“通用”走向“垂直”。

算力、海量数据、高成本的人才成为大部分企业进入通用模式的障碍。但深度定制、广阔场景应用等需求催生了国内垂直领域大机型的发展。

近两个月,不少在医疗、金融、教育、绘画等行业积累了用户数据的中小企业,开始基于“基地”进行训练和适配国内外大型机型。垂直模型。同时,发布了通用机型的企业也推出了针对特定行业的机型。

如果说一般大型模型是大型模型开发的初级阶段,那么垂直场景应用则可以看作是它的“中场战役”。该模式实现了跨越式发展,并率先实现了在不同行业的落地价值。

路由差异化

短短两个月时间,差异化已经出现。

在5月23日举办的文心大模型技术交流会上,百度智能云AI与大数据平台总经理周昕介绍:“文心千帆大模型平台由百度提供百度给客户的企业级大型模型制作平台,不仅提供包括文心一言和第三方大型模型服务在内的大型模型服务,还提供完整的大型模型开发工具链和

捷文新千帆可以以文心易言为核心,提供大模型服务,帮助客户改造产品和生产流程;企业也可以基于任何开源开发自己专属的大模型-文心千帆上的源码或闭源大型模型。

全天候采访多位业内人士科技认为,目前国内大模型赛道主要包括三类:一类是对标GPT的通用大模型,公司主攻基础层;二是在模型的基础上,垂直大模型——训练规模模型,专注于垂直行业的企业;另一类是纯应用公司,专注于特定应用。

出现了,无论是分到具体行业,还是不做研发直接调用接口进行产品运营,这种趋势越来越明显。”原金山软件副总裁、人工智能事业部负责人、现AI领域创业者李长良告诉全天候科技。

通用大型模型面临着算力需求大、训练和推理成本高、数据质量差等挑战。一个成功的可商用输出的通用大模型,需要厂商具备全栈大模型训练和研发能力、业务场景落地经验、AI安全治理措施、生态开放等核心优势。

在百度智能云副总裁朱勇看来,拥有基础模型(一般大模型)的公司可能“只有少数”,但很多专业领域的大模型会在其上成长.

“训练一个基础模型的成本非常高,要构建一个千亿级别的大模型,需要单机组上万张卡的算力。”朱勇说,从国内外来看,真正的仿制企业并不多。相反,训练一个领域(垂直)模型所需的成本和资源远少于从头开始做一个通用模型。

因此,从业务逻辑来看,大部分公司不具备做通用大型模型的能力,巨头更适合做通用大型模型,有丰富的公司场景数据积累更适合垂直领域模型。

垂直规模化模式主要是针对行业需求的深度解决方案,即企业在自己擅长的领域培养自己的“工业版GPT”。这类大模型生成的内容更符合特定垂直场景的需求,质量更高。

目前在金融、医疗、交易等场景中可以看到很多垂直模型的应用。例如,彭博基于自身丰富的金融数据资源,基于GPT-3框架进行再训练,开发了金融专用大模型BloombergGPT。

除了以上两种常见的模式,目前国内的大型创业赛道上还有一家专门做应用的公司。

通用VS垂直领域

通用大规模布局的巨头需要一个生态.因此,百度和阿里都希望成为“大模型基地”,为行业和企业赋能。但并不是所有的公司都有这种能力。

"现有大型模型的计算能力和能耗挑战将促使很多工作都在向特定领域和轻量级大模型的方向发展,特别是在金融、教育、医疗、交通等领域,很多工作都在努力降低大模型的成本。”中国科学院自动化研究所副所长曾大军在近日召开的第六届数字中国建设峰会上表示。

相比通用大模型的高昂开发和训练成本,基于开源模型开发垂直模型,既能兼顾开发成本,又能兼顾数据安全。

事实上,除了挑战之外,实际场景需求也加速了大模型垂直化的进程

“中国擅长商业模式和应用的创新。”一位AI领域的创业者表示,与此同时,不乏AI模型落地场景、丰富的数据、以及追赶潮流的热情,因此在短短两个月的时间里,大模型领域化发展迅速。

以百度文心千帆的“AI大模型库”为例举个例子,目前合作测试和开发的公司,通常来自信息化和技术渗透率高的行业,比如金融行业、能源行业、泛互联网行业等。

"垂直模型是在通用大模型的基础上训练出来的。除了通用的大模型,没有垂直模型。”周昕说,垂直模型强调的是领域的know-how,对于特定的领域,该领域的任务需要指令学习。

行业不同,场景不同,指令学习也大不相同。比如泛互联网行业更注重营销和推荐的效果,金融领域更注重

在李昌亮看来,垂直大模型与通用大模型最大的区别在于,垂直大模型对产品的要求更低。在资源投入和成本投入方面,但额外的要求是 industry known-how ,即对这个行业的知识要求增加了。

在数据方面,在特定的垂直领域,企业有私有数据,这是其他企业用金钱买不到的核心竞争力和天然优势。

在计算能力上,通过微调通用大模型实现的垂直大模型与通用大模型相比是“几何式下降”。

据国金证券测算,在模型微调阶段,由于训练量较小,只有10000,相关算力成本相比之下可以忽略不计。

以斯坦福大学2023年3月发布的羊驼为例。这是一个基于 LLaMA-7B 基础并使用 52,000 条指令对模型进行微调的会话语言模型。该模型基于8台A100进行微调,微调耗时3小时,算力成本不超过300元。

当然,并不是所有的公司都能在通用模型的基础上进行微调。

以百度文心千帆为例,要在本平台微调制作自己的大模型,必须满足两个条件:企业是否有高质量的数据保存;对生成式AI的理解变成了高质量的数据,变成了指定数据进行指定微调。

换句话说,在企业端落地,那些拥有海量行业数据和行业know-how的企业,更有可能做出垂直模式。

“因为有专业的数据,行业的know-how,结合不同类型的领域模型,这些领域模型在未来会非常繁荣,支撑非常繁荣的上层领域应用。”朱勇说道。

"两条腿走路

“GPT+行业专家系统”模型有产生了一个新的垂直领域大模型。

大模型的最大价值在于商业模式的创新和商业组织各个环节的变革,从而降本增效。这就是也是企业纷纷进入大模型的原因。

Meta的LLaMA模型等大模型的开源,为垂直模型的发展提供了加速器。

公开资料显示,LLaMA基于通用领域的开源数据集进行训练,训练数据涵盖40种语言,包含约1.4万亿个Token,LLaMA模型一经发布,即完全开源,吸引了大量

作为一个完全开源的领先模型,LLaMA 具有高度的灵活性、可配置性和通用性,可以作为垂直 AI 模型的通用基础。

虽然LLaMA模型的参数较小,但其性能并不逊色于PaLM、GPT-3等大型语言模型。并且参数规模小,大大降低了LLaMA模型的落地部署和二次开发难度。

“基于LLaMA的开源模型,我们自己喂数据,慢慢调试,就能调试出我想要的效果。”一位AIGC领域的创业者告诉全天候科技。

全天候科技了解当前很少有企业采取“两条腿走路”的策略,即一边接入大模型API,一边在开源模型上细化模型,两者形成反馈链,加速各自能力的提升,打造创新闭环。

“调用API接口也是获取数据资源的有效手段。”李长良表示,这部分数据可能在未来企业训练模型时有用。

在不少业内人士看来,对于各行各业来说,垂直大模式是一种全新的生产力,每个行业的垂直大模式都可能产生显着的影响。甚至对行业产生颠覆性影响。影响。

值得一提的是,在一级市场,专注于大型垂直模式的初创公司也是投资机构眼中的“宝贝”。

在前不久举行的2023中国投资年会上,天堂硅谷高级合伙人王伟将“垂直领域大模型、有行业数据和行业know-how的项目”列为重点投资布局的字段之一。

本文不构成个人投资建议,也不代表平台观点。市场有风险,投资需谨慎。请您独立作出判断和决定。

大模型会改变世界吗?


澳洲中文论坛热点
悉尼部份城铁将封闭一年,华人区受影响!只能乘巴士(组图)
据《逐日电讯报》报导,从明年年中开始,因为从Bankstown和Sydenham的城铁将因Metro South West革新名目而
联邦政客们具有多少房产?
据本月早些时分报导,绿党副首领、参议员Mehreen Faruqi已获准在Port Macquarie联系其房产并建造三栋投资联

中文新闻,澳洲经济,时事,华人论坛动态,悉尼本地消息,墨尔本,珀斯,布里斯班,澳洲新闻,澳大利亚华人网,澳洲华人论坛