Large_models

DeepSeek-OCR：重塑AI长文本处理

本文介绍了DeepSeek-OCR，一种革命性的AI模型，能够将长文本处理效率提升数十倍，从而实现对超长文档的快速处理。

2025-10-21

4 标签

#AI #DeepSeek #OCR +1

4014 字 17 分钟

阅读全文

Gemini 2.5 Computer Use Model

Gemini 2.5 Computer Use Model 是基于视觉理解的AI代理，通过持续的感知-行动循环实现自动化任务处理。

2025-10-07

3 标签

#gemini #Computer Use #浏览器

2231 字 9 分钟

阅读全文

Meta颠覆代码AI：新模型CWM不只“读”代码，更能“执行”它

Meta发布的一项名为“代码世界模型”（Code World Model, CWM）的全新研究，正试图从根本上解决当前代码AI面临的一大痛点。

2025-09-28

3 标签

#AI #代码 #世界模型

2221 字 9 分钟

阅读全文

Google Gemini Nano Banana 图像的创意应用案例

本文介绍Google Gemini Nano Banana模型的创意应用案例。

2025-09-06

4 标签

#image #Gemini #Nano +1

5363 字 22 分钟

阅读全文

FastVLM-WebGPU 技术报告解读

本文介绍了苹果公司开源的FastVLM-WebGPU模型，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

2025-09-02

4 标签

#Opensource #FastVLM-WebGPU #apple +1

2488 字 10 分钟

阅读全文

AudioLLM - 李沐亲自解说语音大模型训练的底层思路

李沐亲自解说语音大模型AudioLLM训练的底层思路

2025-07-29

5 标签

#AI #AudioLLM #李沐 +2

3142 字 13 分钟

阅读全文

Kimi-K2 简介和有意思的用法

本文介绍了MoonshotAI公司Kimi-K2模型简介和相关有意思的用法。

2025-07-19

6 标签

#AI #Kimi #Kimi-K2 +3

3086 字 13 分钟

阅读全文

ERNIE 4.5 技术报告解读

本文介绍了百度开源的ERNIE 4.5模型，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

2025-06-30

4 标签

#Opensource #ERNIE-4.5 #论文 +1

8051 字 33 分钟

阅读全文

Qwen3 Tech Report解读

全方位解读Qwen3的论文技术报告

2025-05-13

5 标签

#AI #Qwen3 #大模型 +2

4406 字 18 分钟

阅读全文

Llama 4 模型系列

本文介绍了Llama 4 模型系列详细解读。

2025-04-03

4 标签

#AI #Llama #LLM +1

7603 字 31 分钟

阅读全文

QwQ-32B Qwen推理大模型解读

本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型QwQ-32B，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

2025-03-06

5 标签

#AI #深度思考 #QwQ-32B +2

761 字 4 分钟

阅读全文

DeepSeek FlashMLA 代码解读

本文介绍了深度求索（DeepSeek）公司FlashMLA代码详细解读。

2025-02-24

5 标签

#AI #deepseek #FlashMLA +2

3881 字 16 分钟

阅读全文

DeepSeek 微调

本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.

2025-02-14

4 标签

#AI #DeepSeek #论文 +1

345 字 2 分钟

阅读全文

DeepSeek V3 论文解读

本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-V3，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

2025-02-14

4 标签

#AI #DeepSeek-V3 #论文 +1

1169 字 5 分钟

阅读全文

DeepSeek R1 论文解读

本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-R1，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

2025-02-10

5 标签

#AI #深度思考 #DeepSeek-R1 +2

7683 字 31 分钟

阅读全文

DeepSeek-OCR：重塑AI长文本处理

Gemini 2.5 Computer Use Model

Meta颠覆代码AI：新模型CWM不只“读”代码，更能“执行”它

Google Gemini Nano Banana 图像的创意应用案例

FastVLM-WebGPU 技术报告解读

AudioLLM - 李沐亲自解说语音大模型训练的底层思路

Kimi-K2 简介和有意思的用法

ERNIE 4.5 技术报告解读

Qwen3 Tech Report解读

Llama 4 模型系列

QwQ-32B Qwen推理大模型解读

DeepSeek FlashMLA 代码解读

DeepSeek 微调

DeepSeek V3 论文解读

DeepSeek R1 论文解读

没有找到相关文章