1. 生成式AI的发展历程
在过去十年中,深度学习技术在处理和生成文本、图像和视频等非结构化数据方面取得了巨大进步。这些先进的人工智能模型在各个行业中变得流行,其中包括大型语言模型(LLMs)。目前,人工智能(AI)在媒体和产业界都受到了极大的关注,有充分的理由认为,随着这些技术的进步,AI即将对商业、社会和个人产生广泛而深远的影响。这种影响受到多种因素的推动,包括技术进步、高知名度应用案例,以及在多个领域产生变革性影响的潜力。
媒体对人工智能相关突破及其潜在影响的报道颇为广泛,这些报道涵盖了从自然语言处理(NLP)和计算机视觉的进步到像GPT-4这样的复杂语言模型的发展。特别是,生成模型因其能够生成与人类生成内容难以区分的文本、图像和其他创意内容而受到大量关注。这些模型还提供了广泛的功能,包括语义搜索、内容操作和分类,这不仅允许通过自动化节省成本,还允许人类以前所未有的水平利用他们的创造力。
注意:生成式AI指的是能够生成新内容的算法,与传统的、更多分析或作用于现有数据的预测性机器学习或AI系统不同。
在不同领域捕捉任务性能的基准测试已经成为这些模型发展的主要驱动力。下面的图表,受到Stephen McAleese在LessWrong上发表的题为“GPT-4预测”的博客文章的启发,展示了大型语言模型(LLMs)在大规模多任务语言理解(MMLU)基准测试中的改进,该基准测试旨在量化在初等数学、美国历史、计算机科学、法律等领域的知识和问题解决能力:
图1.1:LLMs在MMLU基准测试上的平均表现
近年来,你可以看到这一基准测试中的显著改进。特别是,它突出了通过公共用户界面由OpenAI提供的模型的进展,尤其是从GTP-2到GPT-3和GPT-3.5到GPT-4的版本之间的改进,尽管这些结果应该谨慎对待,因为它们是自我报告的,并且是通过5次尝试或零次尝试条件下获得的。零次尝试意味着模型仅通过问题提示,而在5次尝试设置中,模型另外给出了5个问答示例。根据Hendrycks及其同事在2023年修订的“测量大规模多任务语言理解”中的说法,这些额外的示例可能简单地解释了约20%的性能。
这些模型及其训练之间的一些差异可以解释这些性能的提升,例如规模、指令调整、注意力机制的调整,以及更多不同的训练数据。首先,参数的大规模扩展从GPT-2的15亿到GPT-3的1750亿再到GPT-4的超过一万亿,使模型能够学习更复杂的模式;然而,2022年初的另一个重大变化是基于人类指令的模型的后训练微调,这通过提供演示和反馈教会模型如何执行任务。
在基准测试中,一些模型最近开始表现得比普通人类评分者更好,但通常还没有达到人类专家的性能。这些人类工程的成就令人印象深刻;然而,应该指出这些模型的性能取决于领域;大多数模型在GSM8K小学数学应用题基准测试上的表现仍然很差。
像OpenAI的GPT-4这样的生成预训练变换器(GPT)模型,是LLMs领域AI进步的典型例子。ChatGPT已被公众广泛采用,显示出由比以前的模型更大而实现的大大改进的聊天机器人能力。这些基于AI的聊天机器人可以生成类似人类的实时反馈,可以应用于从软件开发到写诗和商业通信的广泛用例。
随着像OpenAI的GPT这样的AI模型不断改进,它们可能成为需要多样化知识和技能的团队的不可或缺的资产。
例如,GPT-4可以被视为一个通才,它不懈地工作而不要求补偿(除了订阅或API费用),在数学和统计学、宏观经济学、生物学和法律(模型在统一律师考试中表现良好)等科目中提供称职的帮助。随着这些AI模型变得更加熟练和易于访问,它们可能会在塑造未来的工作和学习方面发挥重要作用。
通过使知识更易于获取和适应,这些模型有潜力平衡竞争环境,为来自各行各业的人们创造新的机会。这些模型在需要更高水平的推理和理解的领域显示出潜力,尽管根据所涉及任务的复杂性,进展各不相同。
至于具有图像的生成模型,它们在协助创建视觉内容方面推动了能力的边界,并且在计算机视觉任务,如对象检测、分割、字幕生成等方面的表现也有所提高。
让我们澄清一下术语,并更详细地解释一下生成模型、人工智能、深度学习和机器学习的含义。
2. 生成模型:AI的创造力引擎
生成模型,作为人工智能(AI)的一个重要分支,正在媒体上获得广泛关注。在学术和应用研究领域,人们常常戏称AI不过是机器学习(ML)的另一种说法,AI就像是穿着西装的ML。
为了更清晰地理解,我们需要区分以下几个术语:生成模型、人工智能、机器学习、深度学习和语言模型。
- 人工智能(AI):计算机科学的一个广泛领域,旨在创造能够推理、学习和自主行动的智能代理。
- 机器学习(ML):AI的一个子集,专注于开发能够从数据中学习的算法。
- 深度学习(DL):使用多层的深度神经网络作为ML算法学习数据中复杂模式的机制。
- 生成模型:一种ML模型,能够基于从输入数据中学到的模式生成新数据。
- 语言模型(LMs):用于预测自然语言序列中单词的统计模型,一些语言模型使用深度学习并训练于庞大数据集,成为大型语言模型(LLMs)。
LLMs结合了深度学习技术和语言建模的序列建模目标,如图1.3所示,展示了不同模型的类图。LLMs代表了深度学习技术与语言建模目标的交汇点。
生成模型是AI的一种强大类型,能够生成与训练数据相似的新数据。这些模型能够从头开始生成新示例,利用数据中的模式。它们能够处理不同的数据模态,并被应用于文本、图像、音乐和视频等多个领域。
生成模型的关键特点是它们能够合成新数据,而不仅仅是做出预测或决策。这使得它们能够生成文本、图像、音乐和视频等内容。
一些语言模型是生成性的,而另一些则不是。生成模型在真实数据稀缺或受限时,能够促进合成数据的创建。这种数据生成减少了标记成本并提高了训练效率。例如,微软研究院采用了这种方法来训练他们的phi-1模型,使用GPT-3.5创造了合成的Python教科书和练习。
生成模型的类型多种多样,它们处理不同数据模态和领域,包括:
- 文本到文本:生成文本的模型,如对话代理。
- 文本到图像:从文本标题生成图像的模型。
- 文本到音频:从文本生成音频和音乐的模型。
- 文本到视频:从文本描述生成视频内容的模型。
- 文本到语音:从文本合成语音音频的模型。
- 语音到文本:将语音转录为文本的模型。
- 图像到文本:从图像生成标题的模型。
- 图像到图像:用于数据增强的模型,如超分辨率、风格迁移和修复。
- 文本到代码:从文本生成编程代码的模型。
- 视频到音频:分析视频并生成匹配音频的模型。
还有更多模态组合需要考虑,这些只是其中的一部分。此外,我们还可以考虑到文本的子类别,如文本到数学,它从文本生成数学表达式,或者文本到代码,它们是从未生成编程代码的模型。
一些模型能够处理多个输入或输出模态。例如,OpenAI的GPT-4V模型(带视觉的GPT-4),它同时接收文本和图像,并具有比以前版本更好的光学字符识别(OCR)功能。
文本是一种常见的输入模态,可以转换为图像、音频和视频等多种输出。输出也可以转换回文本或在同一模态内。LLMs推动了以文本为重点的领域的快速进步。这些模型通过不同的模态和领域实现了多样化的能力。
生成AI在不同领域的快速进展展示了其潜力。业界对AI的能力及其对商业运营潜在影响感到兴奋。但同时也面临关键挑战,如数据可用性、计算需求、数据偏见、评估困难、潜在的滥用以及其他社会影响,这些问题需要在未来解决。
3. 生成式AI崛起的关键时刻
生成式AI在2022年成为公众关注的焦点,这得益于多个相互关联的驱动因素。以下是推动生成模型发展的关键因素:
-
算法改进:改进的算法,如反向传播算法,为训练多层神经网络提供了有效手段。
-
硬件进步:计算能力和硬件设计的显著提升,尤其是GPU的发展,为深度学习模型的训练和运行提供了必要的计算能力。
-
数据集的可用性:大型标记数据集的可用性,得益于互联网数据的爆炸式增长,为训练生成模型提供了基础。
-
研究社区的协作:一个积极协作的研究社区推动了工具和技术的发展,如TensorFlow、PyTorch和Keras等软件库。
-
模型架构的创新:从自编码器到变分自编码器(VAEs)和生成对抗网络(GANs),再到Transformer模型,模型架构的不断创新为生成模型的性能提升奠定了基础。
-
转移学习技术:允许模型在一个任务上预训练后在另一个类似任务上进行微调,提高了训练大型模型的效率。
-
硬件成本的降低:硬件成本的下降使得在更大的数据集上训练更大的模型成为可能。
-
基准测试和挑战:研究社区开发的基准测试和挑战,如MMLU和ImageNet,推动了生成模型性能的进一步提升。
这些因素共同作用,使得生成式AI在多个领域取得了显著进展,包括文本、图像、音乐和视频的生成。生成模型的多样性和灵活性使其在创意产业、教育、医疗和娱乐等多个行业中具有广泛的应用潜力。
随着技术的进步,生成式AI不仅能够生成与训练数据相似的新数据,还能够创造出全新的内容,这在艺术创作、游戏开发、虚拟助手和个性化推荐系统等领域展现出巨大价值。
然而,生成式AI的发展也面临挑战,包括数据隐私、模型偏见、计算资源的可访问性和潜在的滥用问题。未来,研究者和开发者需要在推动技术进步的同时,也要考虑这些挑战,并寻找解决方案。
生成式AI的未来充满希望和挑战,它将如何塑造我们的世界,值得我们持续关注和探索。