Peng Tan's AI Blog

整体概况

产品线分为：模型，AI平台(开发和部署,比如Vertex AI， AI Studio)，AI应用（Gemini app, NotebookLM, Learn about, DeepResearch，Astra）

大模型

多模态大模型： Gemini， Gemma 图像大模型：Imagen， PaLM-E 视频大模型： Veo

开发环境

Google AI Studio
Google Vertex AI
Google Cloud AI

应用

Google Learn about
Google AI Research
Google NotebookLM
Google Gemini App

NotebookLM

https://notebooklm.google/

我主要用它来阅读论文，科技报告，长篇技术文章等等。它的一些新功能不错，比如思维导图，生成双人播客（用户可以随时插入讨论），视频生成

DeepResearch

Astra (Project Astra)

还在内测！

谷歌的Astra是由 DeepMind 开发的先进人工智能代理，旨在通过多模态功能无缝融入日常生活。Astra 处理并响应各种输入 —— 文本、图像、视频和音频 —— 使其成为高度交互和直观的助手。 Astra 的突出特点包括用于上下文理解的实时记忆、高级工具使用（例如谷歌搜索、地图和镜头）以及协助完成诸如识别物体或提供建议等任务的能力。例如，用户可以将手机对准书架并询问 Astra 识别评分最高的书，展示了其连接数字世界和物理世界的独特能力。随着将其部分功能集成到其他谷歌产品的计划，Astra 将在 2025 年及以后重新定义个人人工智能。目前，Project Astra正在由有限数量的受信任用户进行测试，以完善其功能并为通用人工智能助手发现新用途。

人工智能代理结合多模态功能来处理文本、图像、视频和音频，创造出由谷歌 Gemini AI 模型支持的自然对话体验。

主要特点：

多模态处理（文本、图像、视频、音频）
实时对象识别和鉴定
具有对过去交互记忆的情境感知响应
与各种设备（手机、原型眼镜）集成
创造性的问题解决和讲故事能力
多语言支持及混合语言理解
工具使用（谷歌搜索、Lens 和地图集成）
改进的会话中及长期记忆

优点：

先进的人工智能能力，可实现自然、情境感知的交互
在各种任务和场景中有多种应用
通过可信测试人员的反馈持续改进
与谷歌生态系统（搜索、Lens、地图）集成
有潜力彻底改变日常协助和问题解决

缺点：

可用性有限（目前处于研究原型阶段）
大量数据处理可能引发隐私担忧
可能引发关于人工智能在日常生活中作用的伦理问题
依赖谷歌生态系统和互联网连接

project-mariner

还在内测！ https://deepmind.google/technologies/project-mariner/

基于 Gemini 2.0 框架构建，这款实验性的 Chrome 扩展程序可以导航网站、理解屏幕内容并代表用户执行操作，标志着朝着更直观的人机交互迈出了重要一步。

主要特点：

导航网站、移动光标、点击按钮并填写表单。
支持在 Chrome 标签页中实时执行任务。
将复杂任务分解为可管理的步骤。
处理屏幕截图以解释网页内容。
通过聊天窗口接受用户指令。
采取顶级安全措施——对敏感操作请求用户确认。
与谷歌生态系统集成，利用 Gemini AI 模型和 Chrome 浏览器。

优点：

简化基于网络的任务，节省时间和精力。
适应各种场景，如在线购物、旅行预订和研究。
为其操作提供逐步解释以提高透明度。
仅在活动标签页中操作并寻求权限，确保用户控制。

缺点：

目前速度较慢，操作之间有明显延迟。
仅局限于 Chrome 浏览器和活动标签页。
不能执行某些操作，如接受 cookie 或完成购买。
由于屏幕截图处理，存在潜在的隐私问题。

技术规范

AI Principles AI Safety AI Ethics AI Governance

学术

DeepMind

https://deepmind.google/discover/events/