AIGC行业专题报告国内大模型概览

3月23日孤小单投稿

　　（报告出品方作者：德邦证券，马笑）国内大模型发展
　　国内AI市场迅速发展，数据量增速或将全球第一
　　国内应用层面的需求推动AI产业的加速发展，或将带来市场的爆发性增长。根据IDC数据预测，2021年中国人工智能软件及应用市场规模为51亿美元，预计2026年将会达到211亿美元。数据、算法、算力是AI发展的驱动力，其中数据是AI发展的基石，中国数据规模增速或排名全球第一。据IDC统计，中国数据规模将从2021年的18。51ZB增长至2026年的56。16ZB，年均增长速度CAGR为24。9，增速位居全球第一。
　　国内各大科技企业纷纷入局AI大模型
　　大模型增强了AI技术的通用性，助力普惠AI的实现。未来，大模型有望于场景深度融合，配合专业工具和平台支持应用落地，开放的生态来激发创新，形成良性循环。头部企业均采取模型工具平台生态三层共建模式，有助于业务的良性循环，也更容易借助长期积累形成竞争壁垒。大模型厂商主要包括百度、腾讯、阿里、商汤、华为等企业，也有智源研究院、中科院自动化所等研究机构，同时英伟达等芯片厂商也纷纷入局。百度：文心大模型
　　百度文心大模型：模型平台产品构成全套体系
　　百度文心构建了文心大模型层、工具平台层、产品与社区三层体系。产品能力：文心大模型飞桨PaddlePaddle深度学习平台，满足市场大规模落地需求。应用能力：百度已在金融、能源、制造、城市、传媒、互联网等行业拥有实际落地的标杆案例。生态能力：在社区用户的基础上，可以实现与开发者、行业用户、上下游产业的正向互动。
　　百度飞桨：深度学习平台为大模型研发基石
　　飞桨（PaddlePaddle）以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是国内功能丰富、开源开放的产业级深度学习平台。截止2022年底，共服务企事业单位20万家，创建模型67万个。飞桨深度学习平台解决大模型研发和部署的各类问题，文心大模型是飞桨模型库的重要组成部分，与飞桨共享生态，包含产业级知识增强大模型体系，以及工具平台、API和创意社区助力大模型的高效应用。
　　文心大模型在市场格局中处于第一梯队
　　百度率先在2019年3月发布预训练模型ERNIE1。0，文心大模型构建了基础任务行业的三级模型体系，基础大模型支撑任务与行业大模型的建设，任务和行业大模型结合真实场景与数据反哺基础大模型优化，目前已有36个大模型。基础大模型：聚焦技术挑战、通用性、泛化性探索，包括含NLP大模型、CV大模型和跨模态大模型。任务大模型：包含对话、搜索、信息抽取、生物计算等多个典型任务。行业大模型：包含与来自8个行业的头部企业或机构共建的11个行业大模型。IDC评估结果显示，百度文心大模型处于第一梯队，产品能力、生态能力达到L4水平，应用能力达到L3水平。
　　基础大模型：聚焦技术挑战、通用性、泛化性探索
　　文心基础大模型覆盖了NLP、CV、跨模态三大方向。文心NLP大模型：ERNIE3。0基于知识增强的多范式统一预训练框架，深入融合的千亿级知识，具备强大的语言理解能力与小说、摘要、文案创意、歌词、诗歌等文学创作能力；与鹏城实验室合作发布了知识增强千亿大模型鹏城百度文心。文心CV大模型：VIMER系列的CV大模型，包括视觉自监督预训练大模型VIMERCAE，多任务学习模型VIMERUFO2。0，端到端文档OCR表征学习预训练模型VIMERStrucTexT2。0等。文心跨模态大模型：ERNIEViLG2。0文生图大模型、ERNIEViL视觉语言大模型、ERNIELayout文档智能大模型等。
　　任务大模型：面向多个经典下游任务推出的模型
　　任务大模型包括，对话大模型PLATO、搜索大模型ERNIESearch、信息抽取大模型ERNIEUIE、代码生成大模型ERNIECode、生物计算大模型等。PLATO：基于隐变量的生成式开放域对话大模型，具备接近真人水平的多轮流畅对话能力，开放域对话效果达到世界领先水平。ERNIEUIE：支持多种类型的开放抽取任务，用户可以使用自然语言自定义抽取目标，无需训练即可抽取输入文本中的对应信息。ERNIECode：基于海量代码和文本数据进行预训练，引入联合学习，具备跨多种自然语言和编程语言的语义理解和生成能力。文心生物计算大模型构建面向化合物分子、蛋白分子的生物计算领域预训练模型，赋能生物医药行业，包括单序列蛋白质结构预测模型HelixFold、蛋白质结构预测模型HelixFoldSingle、化和表征学习模型HelixGEM2。
　　行业大模型：深入产业落地的重要举措
　　行业大模型是百度与行业头部企业、机构联合研发的融合行业数据、知识以及专家经验的大模型，在各行业的技术效果突破、产品创新、生产流程变革、降本增效等维度产生价值。与国网合作的NLP大模型：探索研发电力人工智能联合大模型，不仅提升了传统电力专用模型的精度，而且大幅降低了研发门槛，实现了算力、数据、技术等资源的统筹优化。与人民网的合作的NLP大模型：引入舆情数据中心积淀的行业知识来更好训练知识增强的传媒行业大模型，实现更少的标注数据下大幅提升传媒行业自然语言处理任务效果，如新闻内容审核分类、舆情分析、摘要生成等。与TCL合作的CV大模型：在TCL几个产线检测mAP指标平均提升10，训练样本减少到原有训练样本30～40，产线指标即可达到原有产线效果，新产线冷启动效率可提升3倍，产线上线开发周期降低30。
　　应用：平台及产品面向B端C端齐发力
　　百度文心围绕大模型产业应用的不同研发环节，面向各阶段不同技术、业务背景的开发者或用户，打造系列工具平台与场景化产品。面向开发者：拥有面向NLP工程师的大模型套件ERNIEKit，包括数据标注与处理、大模型精调、大模型压缩、高性能部署、场景化工具五大模块能力；AI开发平台，包括零门槛AI开放平台EasyDL，和面向AI算法开发者提供全功能AI开发平台BML。面向下游应用：文心开放了API接口，包括NLP大模型ERNIE3。0、跨模态大模型ERNIEViLG、对话大模型PLATO。面向用户：推出了基于大模型驱动的新一代产业级搜索系统文心百中，以及AI艺术与创意辅助平台文心一格。腾讯：混元大模型
　　腾讯HunYuan大模型：深入产业落地的重要举措
　　2022年4月，腾讯首次对外披露HunYuan大模型，协同了腾讯预训练研发力量，完整覆盖NLP大模型、CV大模型、多模态大模型及众多行业领域任务模型。HunYuanNLP：万亿级别中文NLP预训练模型，参数量达1T，排名CLUE1。1总排行榜第一。HunYuanvcr：排名VCR（VisualCommonsenseReasoning）榜单第一。HunYuantvr：跨模态文字视频检索AI大模型。
　　太极机器学习平台：HunYuan大模型的底层支持
　　太极是腾讯自主研发的一站式机器学习生态服务平台，为AI工程师打造从数据预处理、模型训练、模型评估到模型服务的全流程高效开发工具，为大模型的训练提供了有力保障。太极AngelPTM：预训练加速组件，单机最大可容纳55B模型，需要192张卡就可以训练万亿模型。太极HCFToolKit：大模型压缩和分布式推理组件，包含了从模型蒸馏、压缩量化到模型加速的完整能力。太极HCFdistributed为大模型分布式推理组件，使得HunYuanNLP1T大模型推理只需96张A100（4G）卡，相比于威震天资源设备占用减少了40。太极SNIP为大模型压缩组件，从蒸馏框架和压缩加速算法两方面，实现了迭代更快，效果更好，成本更低的大模型压缩。
　　应用：为腾讯生态降本增效，广告类应用表现出色
　　HunYuan先后支持了包括微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务，降本增效。依靠HunYuan的多模态理解能力，在广告内容理解、行业特征挖掘、文案创意生成等方面的应用，在为腾讯广告带来大幅GMV提升的同时，也初步验证了大模型的商业化潜力。HunYuan大模型和腾讯广告精排大模型基于太极机器学习平台，共同完善优化了广告理解、用户理解、广告和用户匹配的整个流程，提升对广告理解、匹配效率、精准度和转化效率。HunYuan大模型的生成能力，可以提升广告制作的效率：图生视频功能，可以将静态的图片自动生成不同样式的视频广告；文案助手功能，可以为广告自动生成更恰当的标题，提升广告的效果；文生视频功能，未来只需要提供一句广告文案，就可以自动生成与之匹配的视频广告。阿里：通义大模型
　　通义大模型：让AI更通用
　　2022年9月，在阿里巴巴达摩院主办的世界人工智能大会大规模预训练模型主题论坛上，发布通义大模型系列，并宣布相关核心模型向全球开发者开源开放。阿里达摩院基于其AI统一底座构建了通用模型与专业模型协同的层次化人工智能体系。统一底座层：M6OFA模型作为单一模型，在不引入新增结构的情况下，可处理超过30种跨模态任务。通用模型层：NLP模型通义AliceMCV模型通义视觉；多模态模型通义M6。专业模型层：深入电商、医疗、娱乐、设计、金融、工业、制造业等行业。
　　底座层：实现模态表示、任务表示、模型结构统一
　　通义大模型背后的核心技术为统一学习范式OFA，使其具备了多种任务的大一统能力。单一模型即可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务；升级后更是可以处理超过包括语音和动作在内的30多种跨模态任务。架构统一：使用Transformer架构，统一进行预训练和微调，无需在应对不同任务时，增加任何特定的模型层。模态统一：不管是NLP、CV这种单模态，还是图文等多模态任务，全都采用同一个框架和训练思路。任务统一：将所有单模态、多模态任务统一表达成序列到序列（Seq2seq）生成的形式，同类任务的输入几乎就是一个模子里刻出来的。
　　通用模型层：趋向于统一大模型的演化
　　通义M6为多模态大模型，已经从2020年6月的3亿参数基础模型发展到2021年10月的10万亿参数全球最大预训练模型到2022年1月的业界首个通用统一大模型M6OFA。2021年3月，发布通义AliceMind，为达摩院开源的深度语言模型体系，CLUE1。1总排行榜第二。AliceMind生态体系包括：通用语言模型StructBERT、多模态语言模型StructVBERT、多语言模型VECO、生成式模型PALM、文档图像理解模型StructuralLM、表格理解模型SDCUP、超大中文理解与生成模型PLUG（24层StructBERT编码器246层的PALM编码器解码器）、超大图像文本模型mPLUG等。华为：盘古大模型
　　华为盘古大模型：深耕大模型的行业应用
　　华为云团队于2020年立项AI大模型，并且于2021年4月发布盘古大模型。受益于华为的全栈式AI解决方案，大模型与昇腾（Ascend）芯片、昇思（MindSpore）语言、ModelArts平台深度结合。盘古大模型已经发展出包括基础大模型（L0）、行业大模型（L1）、行业细分场景模型（L2）三大阶段的成熟体系。2022年11月，在华为全联接大会2022中国站上，华为云进一步迭代盘古大模型的技术能力，扩展盘古大模型的服务范围，发布盘古气象大模型、盘古矿山大模型、盘古OCR大模型三项重磅服务。
　　ModelArts：大模型研发的平台支持
　　ModelArts是面向开发者的一站式AI平台，为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成，及端边云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。ModelArts的主要能力包括数据处理、算法开发、模型训练、AI应用管理和部署；功能模块涵盖了强化学习、天筹（OptVerse）AI求解器、盘古大模型、AIGallery（人工智能知识与实训专区）、IDE（云原生Notebook）等。
　　基础大模型：将Transformer应用于各模态
　　盘古语音语义大模型：语义模型是业界首个千亿中文大模型；语音模型拥有超过4亿参数，是当前最大的中文语音模型之一。语义部分，基于Transformer搭建基础架构，针对理解能力，使用类似BERT的MLM方式训练；针对生成能力，使用回归语言模型作为训练目标，即给定一句话的上半部分，让模型预测下半部分。2022年，华为在鹏城云脑上训练了全球首个全开源2000亿参数的自回归中文预训练语言大模型鹏程盘古。
　　语音部分，使用卷积与Transformer结合的网络结构，解码器与文本类似；音频编码器部分，预训练时采取将音频中挖掉一个片段，再随机采样一些片段作为负例，让模型从中找出正确的被挖掉的片段。
　　盘古视觉大模型：最大拥有30亿参数，兼顾判别与生成能力；在小样本学习性能领先。融合了卷积网络和Transformer架构，分开或按需结合达到更好效果；业界首创基于等级化语义聚集的对比度自监督学习，以减少样本选取过程中的噪声影响。
　　盘古多模态大模型：使用LOUPE算法预训练所得的模型，在多项下游任务中表现出了更好的精度。采用了双塔架构，利用不同的神经网络来完成不同模态的信息抽取，然后仅在最后一层做信息交互和融合，具有模型独立性强、训练效率高等优势。实现方式为：分别抽取图像和文本特征，然后将一个批次的图像和文本特征送入判别器，使得配对的跨模态特征聚集在一起，而不配对跨模态特征被拉远，大数据充分迭代后，模型就能学会将图像和文本对齐到同一空间。此时，图像和文本的编码器可以独立用于各自下游任务，或协同用于跨模态理解类下游任务。报告节选：
　　（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）
　　精选报告来源：【未来智库】。

投诉评论转载

探究北宋保安军的问题及影响历史开讲文焱夕照编辑焱夕照前言北宋时期的保安军是一个非常特殊的军队，其建立和发展不仅与当时政治、经济、军事等方面的因素密切相关，也涉及到社会结构、文化传……2023年了，我把六年的ipad花948元维修电池换新了本内容来源于什么值得买APP，观点仅代表作者本人作者：许小明一、说在前面各位观众，你没看错，2023年了，而且是在电池服务涨价后，我仍然去直营店，花948元把我6年……抢抓机遇，发力先进制造业核心阅读近年来，湖南省持续做强做优做大制造业，塑造发展新优势，驱动增长新引擎。围绕制造业重点产业链，当地推进关键技术攻关，提升产业创新能力和竞争力；同时加快培育壮大新兴产……黄巧灵见义勇为彰显人间大爱黄巧灵，女，汉族，1979年6月出生，资兴市清江镇羊场村庙背组人。2019年11月10日，她不顾个人安危，救下了清江镇大垅村塘湾组4岁男孩小超，避免了一场悲剧发生。……香港科创产业谋变积极推动大湾区多领域合作罗曼摄彭春霞制图证券时报记者罗曼李明珠近日，香港特别行政区行政长官李家超拜访国家科学技术部，并出席特区政府与国家科学技术部签署有关加快建设香港国际创新科技中心合作协……因4岁女儿长得不像自己，父亲坚持做亲子鉴定，遭到全家人反对！结婚不是儿戏，95后父亲与相识两个月的女朋友结婚，婚后因为自己4岁的女儿长得不像自己，坚持要做亲子鉴定，但是却遭到全家人的反对！那么这对年轻的夫妻俩之间到底发生了什么呢？……引得春风度玉关光绪年间，左宗棠率军西征收复新疆始末新疆，古代称之为西域。西汉初年，西域共有36国。公元前60年，西汉在西域设立了西域都护府，至此，西域各国与汉朝的臣属关系完全确定，此后历朝均在此设有统治机构。公元1959年，乾……10年过渡期将结束，机关事业退休人员养老金会降低跟企退一样吗点击上方蓝色按钮，即可收听全文，社保当家为您提供视听双体验！2023年，机关事业单位养老保险改革已经过去了9年，还有1年的时间，10年过渡期就要结束了，机关事业单位人员退……一文读懂数字化工厂建设随着科学技术的不断发展，制造类企业也经历了几次变革，从实际发展来看，每一次变革都带来了制造水平的大幅提升，体现了科学技术的主导作用，研究认为制造类企业向智能化发展大致经历以下四……同样是跨年晚会，把湖南卫视和央视等放在一起看，差别出来了皮哥没想到，2023年的跨年晚会，竟然也会这么卷。从昨晚看到今天，大概数了数，算上央视、各大卫视、互联网和其他平台的跨年晚会音乐会，总数超过10场。除此之外，今年的……AIGC行业专题报告国内大模型概览（报告出品方作者：德邦证券，马笑）国内大模型发展国内AI市场迅速发展，数据量增速或将全球第一国内应用层面的需求推动AI产业的加速发展，或将带来市场的爆发性增长。根据……花样少女前往可可西里，本是去散心却酿成悲剧，过去两年死因成谜阅读此文前，诚邀您点击一下关注，既方便您进行讨论与分享，又给您带来不一样的参与感，感谢您的支持。引言谁能想到这一次的徒步之旅，最终竟成了她生命的最后一次旅行。她是一……

<<<<<<－>>>>>>

美在我身边和博士后谈恋爱研究生儿子与小学同学的PK 用手机赚钱日入的方法分享方法对了在家赚钱也很简单天下没有造句用天下没有造句大全家乡的味道临场造句用临场造句大全我做肉夹馍外卖零起步到年赚万未上映的铠甲勇士电影版，三大新角色登场，修罗还收获新武器关于生日的作文字农村法治建设中遇到的问题及应对策略个儿造句用个儿造句大全十大新科技谁最“忽悠”？人工智能第二，量子计算单列有关青春节的作文范文传承五四精神仙鹤报恩朝鲜半岛会走向战争吗？今天蛇地取名（蛇多少岁）2021中考备考作文从那一刻开始对创维电视又爱又恨假如我是一片云数据治理（十五）Ranger管理Hive安全禁吃避孕药的十种女性网络带我游西湖六年级作文人性经得起实验吗：揭露人性的5个实验

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找