121页|中国人工智能系列白皮书——大模型技术-2023版
2022年底,由OpenAI发布的语言大模型ChatGPT引发了社会的广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力。以ChatGPT为代表的大模型技术可以在经济、法律、社会等众多领域发挥重要作用。大模型被认为很可能像PC时代的操作系统一样,成为未来人工智能领域的关键基础设施,引发了大模型的发展热潮。
本次大模型热潮主要由语言大模型(亦称为大语言模型)引领。语言大模型通过在海量无标注数据上进行大规模预训练,能够学习到大量的语言知识与世界知识,并且通过指令微调、人类对齐等关键技术拥有面向多任务的通用求解能力。在原理上,语言大模型旨在构建面向文本序列的概率生成模型,其发展过程主要经历了四个主要阶段
1)统计语言模型:统计语言模型主要基于马尔可夫假设建模文本序列的生成概率。特别地,N-gram语言模型[6]认为下一个词汇的生成概率只依赖于前面出现的N个词汇(即N阶马尔可夫假设)。此类语言模型的问题在于容易受到数据稀疏问题的影响,需要使用平滑策略改进概率分布的估计,对于文本序列的建模能力较弱。
2)神经语言模型:针对统计语言模型存在的问题,神经语言模型主要通过神经网络(MLP[7]、RNN[8])建模目标词汇与上下文词汇的语义共现关系,能够有效捕获复杂的语义依赖关系,更为精准建模词汇的生成概率。进一步,word2vec[4]简化了神经语言模型的网络架构,可以从无监督语料中学习可迁移的词表示(又称为词向量或词嵌入),为后续预训练语言模型的研究奠定了基础。
3)预训练语言模型:预训练语言模型主要是基于“预训练+微调”的学习范式构建,首先通过自监督学习任务从无标注文本中学习可迁移的模型参数,进而通过有监督微调适配下游任务。早期的代表性预训练语言模型包括ELMo[9]、GPT-1[10]和BERT[11]等。其中,ELMo模型基于传统的循环神经网络(LSTM)[12]构建,存在长距离序列建模能力弱的问题;随着Transformer[13]的提出,神经网络序列建模能力得到了显著的提升,GPT-1和BERT都是基于Transformer架构构建的,可通过微调学习解决大部分的自然语言处理任务。
4)语言大模型(探索阶段):在预训练语言模型的研发过程中,一个重要的经验性法则是扩展定律(Scaling Law)[14]:随着模型参数规模和预训练数据规模的不断增加,模型能力与任务效果将会随之改善。图1-1展示了2018至2023年间典型预训练模型的参数量变化趋势。OpenAl在研发GPT系列模型过程中,主要探索了GPT-1[10](1.1亿参数)、GPT-2(15亿参数)[15]、以及GPT-3(1750亿参数)[16]三个不同参数规模的模型,谷歌也推出了参数规模高达5400亿
参数的PaLM模型[17]。当模型参数规模达到千亿量级,语言大模型能够展现出多方面的能力跃升[18]。例如,GPT-3在没有微调的情况下,可以仅通过提示词或少数样例(In-context learning,上下文学习[19])完成多种任务,甚至在某些任务上超过当时最好的专用模型。学术界引入了“语言大模型”(Large language models)[5]来特指这种超大规模的预训练语言模型,以突出与早期预训练语言模型的不同。
来源:中国人工智能学会
关于我们
我们是一家专注于分享国内外各类行业研究报告/专题热点行业报告/白皮书/蓝皮书/年度报告等各类优质研究报告分享平台。所有报告来源于国内外数百家机构,包含传统行业、金融娱乐、互联网+、新兴行业、医疗大健康等专题研究.....目前已累积收集近80000+份行业报告,涉及众多大板块,多个细分领域。
内容涵盖但不限于(市面上有的基本都有):
1、互联网运营、新媒体、短视频、抖音快手小红书等等;
2、房地产、金融、券商、保险、私募等;
3、新技术(5G)、金融科技、区块链、人工智能类;
4、电子商务、市场营销、运营管理、麦肯锡、德勤等;
5、快消品、餐饮、教育、医疗、化妆品、旅游酒店、出行类等;
免责声明:
本平台只做内容的收集及分享,报告版权归原撰写发布机构所有,由星夜智库社群通过公开合法渠道获得,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系。
欢迎加入星夜智库,下载所有精华报告。
关注公众号【星夜行研社】获取报告
获取报告也可加小助手VX:sungonow
星夜智库是一个专注为大学生/研究生、创业者、投资者、市场分析员、财务经理、战略经理等有报告需求的人员设立的个人学习社区,用于分享国内外各类行业研究报告/专题热点行业报告/白皮书/蓝皮书/年度报告等各类优质研究报告分享平台。
在这里,您将获得:
*全球最全的行业报告:覆盖1200+专业机构,1000+细分行业,全球最全的中英文版的报告。
*最全面最丰富的资料:3万+份报告,每日资讯、智能工具、热门数据、创业思考、策划方案、经管书籍、有声读物、最新影视资源,全面、专业、及时。
*每日持续不间断更新:每日不间断更新80-200篇报告或资料,确保您始终掌握最新的行业情报信息。
*超级低廉的会员费用:每天不到1毛钱,一年才35元,以超低的使用成本,获取高质量的行业报告。
*稳定专业的服务保障:“星夜智库”拥有接近2000的高质量专业用户,“星夜行研社”公众号拥有接近1万的各行业精英粉丝,千余家合作企业VIP会员的支持,确保我们的稳定高质量运营。
*DeepSeek&AI搞钱:工具赚小钱的方法:不定期分享DeepSeek&AI工具应用方法,实现知识变现!
免责声明:
星夜智库只做内容的搜索、收集及分享,转载此文出于传播更多资讯之目的,版权归原撰写发布机构所有,由星夜智库社群通过公开合法渠道获得。本文所用的视频、图片、文字如涉及作品版权问题,请第一时间联系小助手星星(微信sungonow),星星将立即删除,无任何商业用途!如对报告内容存疑,请与撰写、发布机构联系。
关注公众号【星夜行研社】获取报告
个人微信|AIX星星:sungonow
个人网站|星夜智库:https://xyzku.cn
公众账号|星夜行研社:https://mp.weixin.qq.com/s/sJCNq14nh69o9ohXXvLzpA
知识星球|星夜智库:https://zsxq.com
微信扫码加入下载所有报告
- 75页-盖世汽车研究院-2025上海国际车展展前报告 - 副本
- 74页-小红书-2025‘薯’你最红小红书电商家具家装行业商家培训 - 副本
- 71页-马云-2025市场营销行业发展报告
- 71页-Fastdata极数--全球ARVR行业发展趋势报告2025
- 69页-量子信息网络产业联盟-光量子计算技术产业研究报告 - 副本
- 68页-哔哩哔哩-2025年哔哩哔哩汽车行业白皮书智启新世代,种草新蓝海 - 副本
- 66页-电通中国文化研究所-2025包包文化赛道发展报告
- 66页-Citeline-2025医药研发年度回顾
- 65页-甲子光年-2025中国AI新风向30条判断
- 62页-德勤-开放性的全栈式智能服务机器人生态
小助手微信sungonow