谷歌发布新一代多模态大模型gemini，性能超越人类专家-太阳成集团tyc122cc

谷歌发布新一代多模态大模型gemini，性能超越人类专家

发布时间12-08 14:00

阅读量5

近日，谷歌宣布发布新一代大模型gemini，再次引发市场对人工智能产业的持续关注。gemini模型作为谷歌以及全球范围内最先发布的多模态模型，在性能上是第一个在mmlu上超越人类专家的模型。模型根据体量大小分为gemini ultra、gemini pro、以及gemini nano三个版本，支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片tpu v5p，相较上一代tpu v4性价比提升2.3倍。

我们认为，多模态gemini模型的正式发布，一方面可以拓宽应用场景的拓展，另一方面能够带来算力需求的持续升级。我们持续看好后续ai产业的前景，认为后续gpt-5等模型的发布亦将带来更多的催化。

近日，谷歌进行新一轮的产品发布，包含ai软件及计算硬件等领域。模型层面，谷歌发布了最新的多模态模型gemini，基于tpu进行训练，可以概括和无缝地理解、操作和组合不同类型的信息。模型包括ultra、pro、nano三个版本，能够在从数据中心到移动设备的所有设备上高效运行。tpu亦更新至v5p版本，与上一代tpu v4相比，性价比提高了2.3倍。

gemini是基于transformer decoder构建的多模态模型，其性能较原有的单一模型更为全面，支持32k的contex长度。根据公司披露，gemini ultra在大型语言模型（llm）研发中使用的32个广泛使用的学术基准中的30个方面，其性能超过了当前最先进的结果。gemini ultra的得分为90.0%，是第一个在mmlu（大规模多任务语言理解）方面优于人类专家的模型，横向对比来看多个任务性能超过gpt-4。在公司披露的技术文档中，gemini能够实现图标理解与格式转换、基于图片的多个问答、文生图、图片理解与推理、几何问题求解、图片信息关联、基于图片以及提示词的问答、梗图理解、图片逻辑解释、代码生成、数学问题求解、表格转换及计算、复杂图片生成、视频理解等功能。

gemini的预训练数据集使用来自web文档、书籍和代码的数据，包括图像、音频和视频数据，并通过筛选、过滤方式去除有害数据，提升数据质量。硬件层面，采用了谷歌的tpu v5e及v4训练，并针对任务进行优化，训练的硬件规模相较上一代的palm-2显著提升。后续来看，预计谷歌将继续推出更高级的tpu v5p，进一步提升训练效果。

免责声明

以上内容仅供您参考和学习使用，任何投资建议均不作为您的投资依据；您需自主做出决策，自行承担风险和损失。九方智投提醒您，市场有风险，投资需谨慎。

写评论

发布

声明：用户发表的所有言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。

0条评论

暂无评论

赶快抢个沙发