2024年I/O开发者大会，Google宣布全面进入Gemini时代

5月15日，在2024年I/O开发者大会上谷歌宣布全面进入Gemini时代。大会中，谷歌CEO桑达尔·皮查伊（Sundar Pidal）发布数十款Google和 AI 结合产品，堪称“全家桶”级别，全力对战OpenAI。
https://gpumall.com/login?type=register&source=sifou
全新Gemini 1.5 Pro支持200万token长文本的Gemini 1.5 Pro。Gemini 1.5 Pro具有原生音频理解、系统指令、JSON模式等，能够使用视频计算机视觉来分析图像（帧）和音频（语音）的视频，这使其具有人类水平的视觉感知。使用深度神经网络，Gemini 1.5 可以以超人的精度识别图像（和视频帧）中的物体、场景和人物。同时，Gemini 1.5 Pro支持200万token长文本，增强了代码、逻辑和图像理解方面的性能。

为了快速响应与成本效益的需求，谷歌还推出更快、更经济的轻量化推理模型Gemini 1.5 Flash，成本低至0.35美元每百万tokens。同时谷歌发布首个AI Agent产品Project Astra，对标OpenAI早前发布的GPT-4o。作为全新的AI助手，具备强大多模态理解和实时对话能力，通过手机捕获的视频和语音识别来实现高效信息处理。视频演示中，当被问到：“你记得我把眼镜放哪儿了吗？”Project Astra使用摄像头帮助追踪他们之前放置眼镜的位置，“你的眼镜放在桌上的红苹果旁边。”Astra准确的说出了眼镜的位置。

此外，谷歌进一步升级开源模型Gemma 2。全新的Gemma 2是一系列轻量级、最先进的开放式模型，具有突破性的性能和效率，旨在用于负责任的AI 创新的下一代开放模型。Gemma 2采用全新架构，提供 27B（270亿）参数大小的尺寸，其性能可与 Llama 3 70B 相媲美，但尺寸却只有 Llama 3 70B 的一半。#autodl#恒源云#矩池云#算力云#恒源云实例迁移#autodl 官网#autodi#GpuMall#GPU云#AutoDL#AotuDL 算力云#GpuMall智算云#AI#大数据#算力租赁#大模型#深度学习#人工智能#算力变现

其次，Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化，可以在英伟达的 GPU 上运行，也可以在 Vertex AI 中的单个 TPU 主机上高效运行，从而使更广泛的用户更易于部署且降低部署成本。同时，Gemma 2 将为开发人员提供跨越不同平台和工具生态系统的强大调优功能。

谷歌表示，Gemma 2将在未来几周内正式公开上线和发布。同时，Google的第一个视觉语言开放模型PaliGemma 也同步发布，PaliGemma 是一个功能强大的开放式 VLM，其灵感来自PaLI-3。 PaliGemma 基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件构建，旨在在各种视觉语言任务上实现一流的微调性能。这包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割。开发者大会上，Google还发布了一款全新的视觉模型——Veo，可通过文本、图像和视频提示生成 1080P 的高质量视频，其可以看作是与Sora对标的一次以往视觉模型的内部资源整合。Veo具备高级的自然语言和视觉语义理解额能力，可以准确呈现细节并捕捉情感基调。

在Google Search方面，新版AI搜索结果页面更加智能化和个性化，将支持多轮推理、规划能力等，用户还可以通过视频提问，从而允许 Google 搜索分析视觉内容并提供有用的反馈。

据悉，在今天召开的 I / O 2024 开发者大会上Google宣布Android 15已融入谷歌Gemini大模型升级后的能力，此次更新将基于本地运行的Gemini Nano模型，支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能，Android 15 Beta 2将在次日正式推出。除以上提及的新产品新升级，Google I/O2024大会还公布一些新模型和新工具，包括Imagen 3 最高质量的文生图模型，支持AI音乐创作的Imagen 3，以及基于Gemini针对学习进行微调的新系列模型LearnLM等。除了AI搜索外，拓展了包括Google Workspace、Gemini Live、Gems、Gemini Advanced、画圈即搜等新功能。作为OpenAI 最强力的竞争对手，此次I/O开发者大会新产品的更新与发布寓意着Google通用AI反击的号角已经吹响了。复制搜一搜分享收藏划线人划线

2024年I/O开发者大会，Google宣布全面进入Gemini时代

GpuMall智算云

引用和评论

GpuMall智算云： Ubuntu 实例桌面版

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

人工智能与机器学习入门：决策树应用

MySQL × 向量数据库：大模型时代的黄金组合实战指南