整体概况
产品线分为: 模型,AI平台(开发和部署,比如Vertex AI, AI Studio),AI应用(Gemini app, NotebookLM, Learn about, DeepResearch,Astra)
大模型
多模态大模型: Gemini, Gemma 图像大模型:Imagen, PaLM-E 视频大模型: Veo
开发环境
- Google AI Studio
- Google Vertex AI
- Google Cloud AI
应用
- Google Learn about
- Google AI Research
- Google NotebookLM
- Google Gemini App
NotebookLM
我主要用它来阅读论文,科技报告,长篇技术文章等等。 它的一些新功能不错,比如思维导图,生成双人播客(用户可以随时插入讨论),视频生成
DeepResearch
Astra (Project Astra)
还在内测!
谷歌的Astra是由 DeepMind 开发的先进人工智能代理,旨在通过多模态功能无缝融入日常生活。Astra 处理并响应各种输入 —— 文本、图像、视频和音频 —— 使其成为高度交互和直观的助手。 Astra 的突出特点包括用于上下文理解的实时记忆、高级工具使用(例如谷歌搜索、地图和镜头)以及协助完成诸如识别物体或提供建议等任务的能力。例如,用户可以将手机对准书架并询问 Astra 识别评分最高的书,展示了其连接数字世界和物理世界的独特能力。随着将其部分功能集成到其他谷歌产品的计划,Astra 将在 2025 年及以后重新定义个人人工智能。 目前,Project Astra正在由有限数量的受信任用户进行测试,以完善其功能并为通用人工智能助手发现新用途。
人工智能代理结合多模态功能来处理文本、图像、视频和音频,创造出由谷歌 Gemini AI 模型支持的自然对话体验。
主要特点:
- 多模态处理(文本、图像、视频、音频)
- 实时对象识别和鉴定
- 具有对过去交互记忆的情境感知响应
- 与各种设备(手机、原型眼镜)集成
- 创造性的问题解决和讲故事能力
- 多语言支持及混合语言理解
- 工具使用(谷歌搜索、Lens 和地图集成)
- 改进的会话中及长期记忆
优点:
- 先进的人工智能能力,可实现自然、情境感知的交互
- 在各种任务和场景中有多种应用
- 通过可信测试人员的反馈持续改进
- 与谷歌生态系统(搜索、Lens、地图)集成
- 有潜力彻底改变日常协助和问题解决
缺点:
- 可用性有限(目前处于研究原型阶段)
- 大量数据处理可能引发隐私担忧
- 可能引发关于人工智能在日常生活中作用的伦理问题
- 依赖谷歌生态系统和互联网连接
project-mariner
还在内测! https://deepmind.google/technologies/project-mariner/
基于 Gemini 2.0 框架构建,这款实验性的 Chrome 扩展程序可以导航网站、理解屏幕内容并代表用户执行操作,标志着朝着更直观的人机交互迈出了重要一步。
主要特点:
- 导航网站、移动光标、点击按钮并填写表单。
- 支持在 Chrome 标签页中实时执行任务。
- 将复杂任务分解为可管理的步骤。
- 处理屏幕截图以解释网页内容。
- 通过聊天窗口接受用户指令。
- 采取顶级安全措施——对敏感操作请求用户确认。
- 与谷歌生态系统集成,利用 Gemini AI 模型和 Chrome 浏览器。
优点:
- 简化基于网络的任务,节省时间和精力。
- 适应各种场景,如在线购物、旅行预订和研究。
- 为其操作提供逐步解释以提高透明度。
- 仅在活动标签页中操作并寻求权限,确保用户控制。
缺点:
- 目前速度较慢,操作之间有明显延迟。
- 仅局限于 Chrome 浏览器和活动标签页。
- 不能执行某些操作,如接受 cookie 或完成购买。
- 由于屏幕截图处理,存在潜在的隐私问题。
技术规范
AI Principles AI Safety AI Ethics AI Governance