最新文章

欢迎来到我的 AI 博客!这里专注于 AI 领域的前沿发展,包括论文解读、技术分析、项目分享等内容。

RPG:从“对话”到“蓝图”,用图谱指导AI思考

RPG:从“对话”到“蓝图”,用图谱指导AI思考

3 标签
#AI #RPG #蓝图
2 分钟阅读
阅读全文

智谱AI(GLM)

智谱AI(GLM)产品线收集整理分析

3 标签
#AI #智谱AI #GLM
1 分钟阅读
阅读全文

人物访谈

与AI领域的专家学者和从业者的深度对话

1 分钟阅读
阅读全文

腾讯AI产品线收集

腾讯AI产品线收集整理分析

3 标签
#AI #腾讯 #产品线
1 分钟阅读
阅读全文
Meta颠覆代码AI:新模型CWM不只“读”代码,更能“执行”它

Meta颠覆代码AI:新模型CWM不只“读”代码,更能“执行”它

Meta发布的一项名为“代码世界模型”(Code World Model, CWM)的全新研究,正试图从根本上解决当前代码AI面临的一大痛点。

3 标签
#AI #代码 #世界模型
1 分钟阅读
阅读全文
Chrome DevTools MCP:让AI编程助手真正"看见"浏览器

Chrome DevTools MCP:让AI编程助手真正"看见"浏览器

Chrome DevTools MCP是谷歌基于模型上下文协议开发的服务器,它将Chrome浏览器的开发者工具能力开放给AI编码助手。

3 标签
#AI #Chrome DevTools #MCP
6 分钟阅读
阅读全文

我的思考

记录我的思考

1 分钟阅读
阅读全文

Claude Code Spec Workflow, 也支持MCP方式

Claude Code Spec Workflow, 也支持MCP方式

3 标签
#mcp #spec #workflow
1 分钟阅读
阅读全文

Spec Kit:基于规范驱动开发的工具包

Spec Kit:基于规范驱动开发的工具包

3 标签
#code_assistant #Spec Kit #规范驱动开发
1 分钟阅读
阅读全文

Specification-Driven Development (SDD) - 规范驱动开发

Specification-Driven Development (SDD) - 规范驱动开发

2 标签
#Specification-Driven Development (SDD) #规范驱动开发
4 分钟阅读
阅读全文

PromptPilot 核心工作原理与方法论详解

PromptPilot 核心工作原理与方法论详解

3 标签
#Prompt #PromptPilot #字节跳动
1 分钟阅读
阅读全文

Google Gemini Nano Banana 图像的创意应用案例

本文介绍Google Gemini Nano Banana模型的创意应用案例。

4 标签
#image #Gemini #Nano +1
2 分钟阅读
阅读全文

FastVLM-WebGPU 技术报告解读

本文介绍了苹果公司开源的FastVLM-WebGPU模型,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#Opensource #FastVLM-WebGPU #apple +1
2 分钟阅读
阅读全文

Agent 相关课程收集

AI Agents for Beginners - From MS

微软发布,11 节课,教授开始构建人工智能代理所需了解的一切知识

home page: …

4 标签
#AI #Agent #多模态 +1
1 分钟阅读
阅读全文

Agent Lightning

介绍

微软开源的 Agent Lightning 项目,它的核心价值在于为开发者和研究者提供了一个强大的工具,用于训练和优化 AI Agent(智能代理),特别是几乎不需要修改现有 Agent 代码就能实现显著的性能提升。

这个项目有以下重 …

4 标签
#AI #Agent #强化学习 +1
1 分钟阅读
阅读全文

AI在商业中的现状2025

AI在商业中的现状2025:学习与转型的鸿沟 报告原文

TL.DR

  • 95% 的企业 GenAI 项目未见 ROI,根因在“不会学习”:系统缺少持久记忆、基于反馈的适配与持续改进。
  • 采用多、落地少:从试点到生产仅约 5% 成功; …

3 标签
#AI #MIT #report
1 分钟阅读
阅读全文

阿里Wan开源大模型

Qwen Wan大模型是阿里云推出的一个通用大模型,旨在提供强大的语言理解和生成能力。

2025-08-27

Wan2.2-S2V开源发布! 一个专为电影级音频驱动角色动画设计的140亿参数模型。该模型旨在超越简单的“数字人”对话,提供达到 …

4 标签
#AI #大模型 #阿里 +1
1 分钟阅读
阅读全文

MIT AI Do Anything

这门课程得到吴恩达的推荐,以下是关于MIT课程《如何用AI(几乎)做任何事》(How to AI (Almost) Anything)的详细信息整理,结合课程官网内容和公开资料,帮助你快速掌握核心内容与资源获取方式: 课程链接


📘 课程基 …

4 标签
#AI #MIT #多模态 +1
1 分钟阅读
阅读全文

每周一个MCP: Zen MCP Server

Zen MCP Server 开源项目分析

3 标签
#mcp #zen #python
1 分钟阅读
阅读全文

每周一个MCP: Magic UI MCP Server

Magic UI MCP Server 开源项目分析

3 标签
#mcp #magic #ui
1 分钟阅读
阅读全文

Gemini 2.5 Pro 在 IMO 2025 中的高级数学推理能力评估

Gemini 2.5 Pro 在 IMO 2025 数学奥林匹克竞赛中的高级数学推理能力评估

4 标签
#IMO #LLM #数学推理 +1
5 分钟阅读
阅读全文

Context Engineering Intro

Context Engineering Intro 是一个全面的模板,用于实现上下文工程,这是通过为 AI 编码助手提供完整上下文来更高效地处理任务的技术。

2 标签
#Context Engineering #Template
1 分钟阅读
阅读全文

Context Engineering

Context Engineering 是大型语言模型(LLM)应用中的系统性技术,旨在通过动态构建、管理和优化输入模型的信息负载(包括指令、记忆、工具输出、外部知识等),提升模型在复杂任务中的性能、稳定性和可靠性。

3 标签
#Context Engineering #LLM #AI
2 分钟阅读
阅读全文

Python 库学习

Python 库学习

2 标签
#Python #lib
1 分钟阅读
阅读全文

3Blue1Brown - 数学可视化教育

顶尖的数学可视化教育网站,包含Neural Networks系列视频

4 标签
#数学 #可视化 #教育 +1
1 分钟阅读
阅读全文

AudioLLM - 李沐亲自解说语音大模型训练的底层思路

李沐亲自解说语音大模型AudioLLM训练的底层思路

5 标签
#AI #AudioLLM #李沐 +2
1 分钟阅读
阅读全文

Every联合创始人Dan Shipper:AI-first工作流程深度访谈

Every联合创始人兼CEO Dan Shipper分享AI-first工作流程,解析为什么每家公司都需要AI运营主管

4 标签
#Claude Code #startup #workflow +1
1 分钟阅读
阅读全文

Manus项目经验:上下文工程精华内容

本文介绍了Manus项目经验的上下文工程精华内容,总结为6个问题和解决方案。

3 标签
#Context Engineer #Manus #项目经验
1 分钟阅读
阅读全文

Claude Code 介绍以及开源生态

Claude Code 是 Claude 的命令行工具,用于代理编码,提供灵活的、可定制的、可脚本化的和安全的编程方式。

3 标签
#Agent #Claude #Code
10 分钟阅读
阅读全文

Kimi-K2 简介和有意思的用法

本文介绍了MoonshotAI公司Kimi-K2模型简介和相关有意思的用法。

6 标签
#AI #Kimi #Kimi-K2 +3
5 分钟阅读
阅读全文

ChatGPT智能体:核心技术解析与应用场景

本文全面梳理了ChatGPT智能体的核心技术架构、功能特点及应用场景,综合自OpenAI官方发布及权威媒体报道。

3 标签
#ChatGPT #智能体 #OpenAI
1 分钟阅读
阅读全文

Taskmaster AI - 通过AI任务管理来提升开发效率

Taskmaster AI - 通过AI任务管理来提升开发效率,支持多种开发工具,如Cursor、Windsurf、VS Code、Claude Code CLI等。

3 标签
#Taskmaster #MCP #AI Task Management
2 分钟阅读
阅读全文

每周一个MCP: 抖音视频无水印提取MCP服务器

douyin-mcp-server 开源项目分析

3 标签
#mcp #douyin #python
2 分钟阅读
阅读全文

TradingAgents 开源项目分析

TradingAgents 开源项目分析

3 标签
#tradingAgents #architecture #uml
1 分钟阅读
阅读全文

MiniMax-M1 模型技术报告

MiniMax-M1 模型技术报告

3 标签
#AI #MiniMax #M1
1 分钟阅读
阅读全文

MiniMax

MiniMax

2 标签
#AI #MiniMax
1 分钟阅读
阅读全文

ERNIE 4.5 技术报告解读

本文介绍了百度开源的ERNIE 4.5模型,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#Opensource #ERNIE-4.5 #论文 +1
4 分钟阅读
阅读全文

Context7

Context7 是一个用于 LLM 和 AI 编码编辑器的 MCP 服务器,可以提供最新的代码文档和代码示例,使得生成的代码更准确、版本相关且避免过时或虚假信息。非常适合配合AI编码助手使用更新版本的API。

2 标签
#Context7 #MCP
1 分钟阅读
阅读全文

Gemini CLI 开源项目分析

Gemini CLI 开源项目分析

3 标签
#gemini_cli #architecture #uml
9 分钟阅读
阅读全文

SkyworkAI DeepResearchAgent

SkyworkAI DeepResearchAgent

3 标签
#AI #DeepResearchAgent #SkyworkAI
1 分钟阅读
阅读全文

微软/Meta/OpenAI工程师Philip Su访谈

微软/Meta/OpenAI Distinguished Engineer- Philip Su访谈

2 标签
#engineer #career
3 分钟阅读
阅读全文

Google I/O 2025 大会亮点

本文介绍了Google I/O 2025 大会亮点。

4 标签
#AI #google #google_io_2025 +1
10 分钟阅读
阅读全文

DeerFlow - 字节跳动开源的Deep Research

DeerFlow - 字节跳动开源的Deep Research

4 标签
#Deerflow #Deep Research #LangGraph +1
5 分钟阅读
阅读全文

Microsoft Build 2025 趋势洞察

本文介绍了Microsoft Build 2025 趋势洞察。

2 标签
#microsoft #ms_build_2025
2 分钟阅读
阅读全文

昇腾AI芯片与英伟达GPU的技术对比

昇腾AI芯片与英伟达GPU的技术对比

3 标签
#GPU #昇腾 #Huawei
2 分钟阅读
阅读全文

OpenEvolve - 开源进化算法项目

OpenEvolve相关开源项目和资源链接

4 标签
#开源 #进化算法 #AI +1
1 分钟阅读
阅读全文

Qwen3 Tech Report解读

全方位解读Qwen3的论文技术报告

5 标签
#AI #Qwen3 #大模型 +2
3 分钟阅读
阅读全文

Reinforced Self-play Reasoning with Zero Data 论文解读

论文介绍了强化自博弈推理的零数据范式,通过自博弈生成任务和验证,实现无需依赖人工标注数据或预设任务的自主学习推理。

3 标签
#AI #论文 #Reinforced
4 分钟阅读
阅读全文

OpenAI: AI in the Enterprise

OpenAI关于企业级AI应用的详细简报

3 标签
#AI #企业级AI #经验教训
1 分钟阅读
阅读全文
模型上下文协议(MCP)深度解析:Agent互操作性的新纪元

模型上下文协议(MCP)深度解析:Agent互操作性的新纪元

本文介绍了模型上下文协议(MCP),并对其技术原理、主要贡献、当前优劣、生态系统现状,并与Google A2A等相关技术进行比较,展望其未来发展趋势。

4 标签
#AI #Agent #MCP +1
5 分钟阅读
阅读全文

模型上下文协议(MCP)深度解析:Agent互操作性的新纪元

本文介绍了模型上下文协议(MCP),并对其技术原理、主要贡献、当前优劣、生态系统现状,并与Google A2A等相关技术进行比较,展望其未来发展趋势。

4 标签
#AI #Agent #MCP +1
10 分钟阅读
阅读全文

多智能体强化学习(MARL)在多智能体系统(MAS)中的应用:理论、算法、应用与展望

本文介绍了多智能体强化学习(MARL)在多智能体系统(MAS)中的应用:理论、算法、应用与展望。

7 标签
#AI #多智能体 #强化学习 +4
17 分钟阅读
阅读全文

Python 的 orjson 库

Python 的 orjson 库

2 标签
#Python #orjson
2 分钟阅读
阅读全文

Python 3.x 高级语法与语言特性深度剖析

Python 3.x 高级语法与语言特性深度剖析

3 标签
#Python 3.x #高级语法 #语言特性
19 分钟阅读
阅读全文

编程能力对比分析一撇

关于编程能力对比分析一撇

7 标签
#coding #validation #gemini +4
1 分钟阅读
阅读全文

Google: 一种通往技术通用人工智能安全的方法

本文介绍了Google关于AGI安全的技术报告,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

5 标签
#AGI #安全 #技术 +2
5 分钟阅读
阅读全文

Deep Research 深度研究

Deep Research 深度研究

4 标签
#AI #Ascent #Agent +1
7 分钟阅读
阅读全文

Cursor AI 最佳实践:提升编码效率与代码质量的权威指南

Cursor AI 最佳实践:提升编码效率与代码质量的权威指南

4 标签
#Cursor #AI #论文 +1
17 分钟阅读
阅读全文

Agent2Agent (A2A) 协议

本文介绍了Google公司A2A协议详细解读。

4 标签
#AI #google #A2A +1
7 分钟阅读
阅读全文

AI Agent Gateway

AI Agent Gateway

4 标签
#AI #Agent Gateway #MCP +1
2 分钟阅读
阅读全文

Llama 4 模型系列

本文介绍了Llama 4 模型系列详细解读。

4 标签
#AI #Llama #LLM +1
8 分钟阅读
阅读全文

CAMEL 工具包

CAMEL Tools

CAMEL工具包是一个模块化框架,旨在通过统一接口扩展AI智能体的能力,使其能够连接外部服务、数据源和计算工具。它提供了多种工具包,涵盖搜索、学术、社交媒体、数据分析、媒体处理、开发、金融和生产力等领域,帮助开发者加 …

3 标签
#AI #CAMEL #Tools
4 分钟阅读
阅读全文

QwQ-32B Qwen推理大模型解读

本文介绍了深度求索(DeepSeek)公司推出的新一代推理模型QwQ-32B,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

5 标签
#AI #深度思考 #QwQ-32B +2
2 分钟阅读
阅读全文

Chain of Draft 论文解读

本文介绍了Chain of Draft(CoD)论文,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#AI #Chain of Draft #论文 +1
3 分钟阅读
阅读全文

微调

本文介绍了微调的常见挑战及其克服方法,并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。

5 标签
#training #finetuning #DeepSeek-R1 +2
3 分钟阅读
阅读全文

Google AI协同科学家系统

本文介绍了Google开发的AI协同科学家系统(AI co-scientist),并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

3 标签
#AI #Google #agent
1 分钟阅读
阅读全文

Test-Time Scaling 相关论文解读

本文介绍了Test-Time Scaling(测试时扩展)的概念,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#AI #Test-Time Scaling #论文 +1
4 分钟阅读
阅读全文

OpenAI 推理模型最佳实践总结

本文总结了OpenAI推理模型最佳实践。

4 标签
#AI #OpenAI #推理模型 +1
1 分钟阅读
阅读全文

字节跳动OmniHuman-1 开源项目解读

字节跳动开源的OmniHuman-1项目,并对其技术原理、功能特点、应用前景和伦理风险进行了详细解读。

5 标签
#人像视频生成 #字节跳动 #OmniHuman-1 +2
1 分钟阅读
阅读全文

Simple Test-Time Scaling 论文解读

本文介绍了来自李飞飞团队的Simple Test-Time Scaling论文,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

5 标签
#opensource #reasoning #SFT +2
1 分钟阅读
阅读全文

每日AI动态

每日AI技术动态汇总,包括新模型、新框架、新应用、新标准、新开源项目、新论文、科技访谈、技术报告、论坛会议和行业趋势

1 分钟阅读
阅读全文

论文解读

这里收录了 AI 领域最新、最重要的学术论文解读,包括但不限于:

  • 大语言模型
  • 机器学习
  • 计算机视觉
  • 强化学习
  • AI 理论研究

1 分钟阅读
阅读全文

DeepSeek 相关文章

这里收录了所有与 DeepSeek(深度求索)相关的内容,包括:

  • 模型发布与更新
  • 技术原理解析
  • 应用案例分析
  • 性能评测报告

1 分钟阅读
阅读全文

STORM - 通过检索和多视角提问来合成主题大纲和维基百科类文章

STORM - 通过检索和多视角提问来合成主题大纲和维基百科类文章

4 标签
#STORM #Co-STORM #LangGraph +1
7 分钟阅读
阅读全文

关于作者

Peng Tan - AI 领域研究者,专注于大模型、多代理系统和上下文工程

1 分钟阅读
阅读全文

UI-TARS Desktop - 字节跳动桌面应用

字节跳动UI-TARS桌面应用项目

4 标签
#字节跳动 #桌面应用 #UI +1
1 分钟阅读
阅读全文

openmanus

openmanus相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

knowledge tools

knowledge tools相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

Karpathy DeepDive LLM

Karpathy DeepDive LLM视频课程

2 标签
#资源 #链接
2 分钟阅读
阅读全文

google deepresearch

google deepresearch相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

gemini

gemini相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

emos

emos相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

deep dive into LLMs like ChatGPT

deep dive into LLMs like ChatGPT相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

claudia

claudia相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

claude mcp server

claude mcp server相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

ai usa impact

ai usa impact相关资源链接

2 标签
#资源 #链接
1 分钟阅读
阅读全文

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者(Multi-agent)应用的强大框架,它作为 LangChain 生态的关键 …

16 分钟阅读
阅读全文

世界生成统一评估基准:WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准,专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态 …

1 分钟阅读
阅读全文

Scaling Laws

下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。


2. Chinchilla 理论曲线

  • 订正说明:Chinchilla模型 …

4 分钟阅读
阅读全文

快速阅读
阅读全文

py-spy

py-spy 是一个专为 Python 设计的采样型性能分析器(sampling profiler),它的主要作用是:

在不中断、无侵入、不修改代码的情况下,实时分析正在运行的 Python 程序的性能瓶颈!

核心用途

1. …

1 分钟阅读
阅读全文

Rankify摘要

一个模块化且高效的检索、重排序和 RAG 框架,专为最新的检索、排序和 RAG 任务模型设计。

Rankify 是一个 Python 工具包,专为统一的检索、重排序和检索增强生成(RAG)研究而构建。该工具包集成了 40 …

1 分钟阅读
阅读全文

快速阅读
阅读全文

Neo4j LLM Knowledge Graph Builder

Neo4j推出了2025年首个版本的LLM知识图谱构建器(LLM Knowledge Graph Builder),这是一个开源工具,旨在从非结构化数据中提取知识并构建知识 …

1 分钟阅读
阅读全文

TLDR

RD-Agent是一个数据驱动的AI研发自动化框架,其核心理念是将研发过程分解为两个关键组件:

  • R (Research):主动探索,提出新想法
  • D (Development):实现想法,将概念转化为可执行的代码

qlib …

4 分钟阅读
阅读全文

快速阅读
阅读全文

LangChain 技术架构与实现详解

LangChain 是一个强大的框架,旨在简化和加速基于大型语言模型 (LLM) 的应用程序的开发。它的技术架构和实现围绕着模块化、可组合性和标准化接口的核心思想。

以下是对 LangChain 技术 …

10 分钟阅读
阅读全文

项目: Youtube Analysis Platform Context(技术栈):

Python FastAPI 服务 基于 TypeScript 的 Create React App 前端 本地 PostgreSQL …

1 分钟阅读
阅读全文

AutoGen 0.4 版本

根据我搜索到的信息,AutoGen 最新版本(特别是 0.4 版本及更高版本)引入了许多新特性和改进,主要集中在以下几个方面:

核心架构和 API (Core & API) …

1 分钟阅读
阅读全文

Cursor 的 .cursor/rules 既可以是单一规则文件,也可以是目录结构,支持更细粒度的规则管理。
但实际用法取决于你用的 Cursor 版本和你的项目需求:


1. 两种常见用法

A. 单一规则文件(最常见,兼容性最好) …

1 分钟阅读
阅读全文

英伟达

开源大模型

1 分钟阅读
阅读全文

Trends – Artificial Intelligence (AI) May 30, 2025 Mary Meeker / Jay Simons / Daegwon Chae / Alexander Krey

我们着手整理与人工智能相 …

1 分钟阅读
阅读全文

This article details a project aiming to recreate the heroes of the Han Dynasty within 15 days, challenging the limits …

2 分钟阅读
阅读全文

做手办

绘制这张图中角色的1/7比例商业化手办,写实风格,真实环境。手巾摆放在电脑桌上,配有圆形透明亚克力底座,底座上无文字。电脑桌旁边放置一只印有原画风格插画的精美玩具包装盒。

数字人

transform the image to …

1 分钟阅读
阅读全文

graph TD
    subgraph GCP ["Google Cloud Platform"]
        direction LR

        subgraph GlobalInfrastructure …

5 分钟阅读
阅读全文

整体概况

产品线分为: 模型,AI平台(开发和部署,比如Vertex AI, AI Studio),AI应用(Gemini app, NotebookLM, Learn about, DeepResearch,Astra)

大模型

多模态大 …

1 分钟阅读
阅读全文

快速阅读
阅读全文

当然,以下是修改后的技术中文内容,准备发布:

大模型 RAG(检索增强生成)应用演进之路与技术解析

大型语言模型(LLM)的检索增强生成(RAG)应用,其演进历程是一部不断突破局限、追求卓越性能与灵活性的奋斗史。从最初的朴素检索到如今的模 …

2 分钟阅读
阅读全文

多智能体社会模拟的最新研究动态

在多智能体系统(MAS)和社会模拟领域,最近有几个重要的项目和研究方向引起了广泛关注。以下是一些关键的项目和研究方向的概述:

1. 斯坦福大学 (Stanford) - “Generative …

2 分钟阅读
阅读全文

部分工具(如文本浏览器、文本检查器)直接借鉴了Magentic-One的设计,实现了文本文件解析和简易Web浏览。

1 分钟阅读
阅读全文

快速阅读
阅读全文

人工智能多智能体系统:架构、交互与应用综合研究报告

1. 引言

1.1 目的与范围

多智能体系统(Multi-Agent Systems, MAS)作为人工智能(AI)和分布式系统领域的一个重要范式,近年来受到了广泛关注 1。本报告旨在基于 …

15 分钟阅读
阅读全文

多智能体系统:原理、类型与比较研究

来自智谱清言的“沉思”,prompt是“调查并比较不同的人工智能多智能体系统”

引言

多智能体系统(MAS, Multi-Agent Systems)是人工智能领域中的重要研究方向,它由多个具有自主性的智 …

2 分钟阅读
阅读全文

DeepSeek R1 的技术流程

DeepSeek R1 的技术流程可总结为以下范式: 1.DeepSeek R1-Zero 的生成: 基于 DeepSeek V3-Base 模型,通过强化学习(RL),直接训练出 DeepSeek …

3 分钟阅读
阅读全文

快速阅读
阅读全文

BMAD-METHOD 和 GitHub Spec Kit 是两种用于 AI 驱动软件开发的新兴框架,但它们在理念、结构和适用场景上有明显差异:

  1. 核心理念 GitHub Spec Kit 强调“规范驱动”(spec-driven)的开发模 …

1 分钟阅读
阅读全文

安全相关

Anthropic的RedTeam有一个新的博客,涵盖了他们在网络、生物、自主性、国家安全等领域的内部研究。

1 分钟阅读
阅读全文

快速阅读
阅读全文

快速阅读
阅读全文

做12张上海像素风图片,竖屏,然后用智能多帧穿起来。

把下面的上海景点做出像素图片,竖屏,然后用智能多帧穿起来。

‌东方明珠广播电视塔‌ 金茂大厦‌ 环球金融中心‌ 上海中心大厦‌ 南京路步行街 城隍庙 世博会博物馆 上海博物馆 豫园 静安 …

1 分钟阅读
阅读全文

[1hr Talk] Intro to Large Language Models

https://www.youtube.com/watch?v=zjkBMFhNj_g 该视频讲稿系统地介绍了大型语言模型(LLMs)。首先,它从基本概念入 …

1 分钟阅读
阅读全文

查询扩展(Query Expansion)

在信息检索中,**查询扩展(Query Expansion)**的核心作用是通过补充或优化用户原始查询的关键词,提升系统对用户需求的理解范围和匹配精度。简单来说,它像一个“智能助手”,帮助搜索引擎 …

1 分钟阅读
阅读全文

为什么说神经网络几乎可以学习任何东西?

核心观点: 神经网络之所以被认为几乎能学习任何东西,其核心在于它们的通用近似能力 (Universal Approximation Capability)。这主要由通用近似定理 (Universal …

2 分钟阅读
阅读全文

什么是 Vector 数据库?

Vector 数据库在自然语言处理、Image Recognition、推荐系统和语义搜索等各个领域发挥着举足轻重的作用,并随着 LLM 的日益普及而变得更加重要。

这些数据库具有非凡的价值, …

1 分钟阅读
阅读全文

Transformer 模型学习指南 I. 复习大纲

  1. 引言 •序列转换模型的局限性(循环神经网络和卷积神经网络)。 •Transformer 模型的提出:完全基于注意力机制,摒弃循环和卷积。 •Transformer 模型的优点:并行化 …

3 分钟阅读
阅读全文