平安证券:GPT-4o性能与实用性双突破 有望加速大模型应用落地

平安证券发布研报称,当前全球范围内的大模型逐渐呈现由单方面的性能角逐,转向性能与实用性并重的发展趋势。大模型能力达到一定水平时必然会走向应用,大模型厂商通过提升其产品性价比,助推下游应用端的推广部署,有望加速大模型产业链商业闭环的形成,继续看好AI主题的投资机会。

平安证券主要观点如下:

GPT-4o的文本、推理及编码能力对标GPT-4Turbo

GPT-4o可接受文本、音频和图像的任意组合作为输入,并可生成文本、音频和图像的任意组合作为输出。GPT-4o在英语文本和代码方面的性能可对标GPT-4Turbo,在非英语文本方面的性能显着提高,同时API的速度也更快,且成本降低50%。其中,在文本评价方面,根据OpenAI官网信息,相比Llama3 400b等主流大模型,GPT-4o在0-shotCOTMMLU(常识问题)上创下了88.7%的新高分,在传统的5-shotno-CoTMMLU上,GPT-4o创下了87.2%的新高分。

GPT-4o在视觉和音频理解方面实现突破

根据OpenAI官网信息,在GPT-4o之前,使用语音模式与ChatGPT对话,GPT-3.5/GPT-4的平均延迟分别为2.8/5.4秒。而GPT-4o可以在短至232毫秒的时间内响应音频输入,平均时长为320毫秒,与人类在一次谈话中的响应时间相似。主要是由于,此前的语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。在这个过程中GPT-4丢失了大量信息,它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。GPT-4o跨文本、视觉和音频,端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。

GPT-4o提速降价,高可用性助推大模型应用侧加速渗透

根据OpenAI官网信息,面向C端用户:GPT-4o的文本和图像功能已经于发布当日开始在ChatGPT的免费套餐中推出,并向Plus用户提供高达5倍的消息限制。OpenAI将在未来几周内在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。面向开发者:开发人员可以在API中访问GPT-4o的文本及视觉模型功能。与GPT-4Turbo相比,GPT-4o速度提高2倍,价格降低50%。OpenAI计划在未来几周内在API中向部分合作伙伴开放GPT-4o新音频和视频功能。GPT-4o的推出是OpenAI大模型产品在实用性方面的重大突破。

根据幻方AI公众号消息,此前,国内AI公司深度求索(DeepSeek)于2024年5月6日发布的大模型DeepSeek-V2性能比肩主流大模型,DeepSeek-V2通过全方位的模型架构创新,实现成本的大幅下降,定价策略相比GPT-4-Turbo,性价比优势凸显。国内外大模型逐渐呈现由单方面的性能角逐,转向性能与实用性并重的发展趋势,更加注重性价比,有望通过降低下游大模型部署成本,加速大模型在各场景的应用落地。

推荐标的:1)算力方面,中科曙光(603019.SH)、紫光股份(000938.SZ)、神州数码(000034.SZ)、龙芯中科(688047.SH),建议关注寒武纪(688256.SH)、景嘉微(300474.SZ)、拓维信息(002261.SZ)、软通动力(301236.SZ);2)算法方面,推荐科大讯飞(002230.SZ);3)应用场景方面,强烈推荐中科创达(300496.SZ)、盛视科技(002990.SZ),推荐金山办公,建议关注万兴科技(300624.SZ)、同花顺(300033.SZ)、彩讯股份(300634.SZ);4)网络安全方面,强烈推荐启明星辰(002439.SZ)。

风险提示:1)国内大模型算法发展可能不及预期;2)AI算力供应链风险上升;3)大模型产品的应用落地低于预期。

滚动至顶部