TLDR

RD-Agent是一个数据驱动的AI研发自动化框架,其核心理念是将研发过程分解为两个关键组件:

  • R (Research):主动探索,提出新想法
  • D (Development):实现想法,将概念转化为可执行的代码

qlib

TLDR

RD-Agent是一个数据驱动的AI研发自动化框架,其核心理念是将研发过程分解为两个关键组件:

  • R (Research):主动探索,提出新想法
  • D (Development):实现想法,将概念转化为可执行的代码

qlib

📅 0001-01-01 ⏱️ 6 分钟 📝 2970 字

Neo4j LLM Knowledge Graph Builder

Neo4j推出了2025年首个版本的LLM知识图谱构建器(LLM Knowledge Graph Builder),这是一个开源工具,旨在从非结构化数据中提取知识并构建知识 …

Neo4j LLM Knowledge Graph Builder

Neo4j推出了2025年首个版本的LLM知识图谱构建器(LLM Knowledge Graph Builder),这是一个开源工具,旨在从非结构化数据中提取知识并构建知识图谱。该工具通过将文档分块、生成文本嵌入、提取实体及其关系,并存储在Neo4j图数据库中来实现更高效的数据交互和检索。新版本增加了多项功能,包括社区摘要生成、多检索器并行运行、支持自定义提取指令以及用户体验改进等。

📅 0001-01-01 ⏱️ 1 分钟 📝 494 字

📅 0001-01-01

Rankify摘要

一个模块化且高效的检索、重排序和 RAG 框架,专为最新的检索、排序和 RAG 任务模型设计。

Rankify 是一个 Python 工具包,专为统一的检索、重排序和检索增强生成(RAG)研究而构建。该工具包集成了 40 …

Rankify摘要

一个模块化且高效的检索、重排序和 RAG 框架,专为最新的检索、排序和 RAG 任务模型设计。

Rankify 是一个 Python 工具包,专为统一的检索、重排序和检索增强生成(RAG)研究而构建。该工具包集成了 40 个预检索的基准数据集,支持 7 种检索技术,包含 24 种最先进的重排序模型,并支持多种 RAG 方法。Rankify 提供一个模块化且可扩展的框架,使研究人员和实践者能够轻松进行实验和基准测试,涵盖完整的检索流程。详细的文档、开源实现和预构建的评估工具,使 Rankify 成为该领域研究者和工程师的强大工具。

📅 0001-01-01 ⏱️ 1 分钟 📝 253 字

py-spy

py-spy 是一个专为 Python 设计的采样型性能分析器(sampling profiler),它的主要作用是:

在不中断、无侵入、不修改代码的情况下,实时分析正在运行的 Python 程序的性能瓶颈!

py-spy

py-spy 是一个专为 Python 设计的采样型性能分析器(sampling profiler),它的主要作用是:

在不中断、无侵入、不修改代码的情况下,实时分析正在运行的 Python 程序的性能瓶颈!

📅 0001-01-01 ⏱️ 2 分钟 📝 859 字

📅 0001-01-01

📅 0001-01-01

Scaling Laws

下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。


2. Chinchilla 理论曲线

  • 订正说明:Chinchilla模型由 …

Scaling Laws

下面是一张表格,总结了scaling law各种曲线和相关参数之间的关系,有助于对比它们各自的设计理念和重点关注的参数。


2. Chinchilla 理论曲线

  • 订正说明:Chinchilla模型由DeepMind团队在论文《Training Compute-Optimal Large Language Models》中提出,发表于2022年,论文ID为arxiv:2203.15556
  • 更正后信息
    • 论文ID:2203.15556
    • 发表时间:2022

3. Deep Scaling Laws

  • 订正说明:该理论通常与OpenAI的缩放定律研究相关,但表格中的描述更接近Chinchilla的结论。若特指参数、数据、计算复杂度三者的联合优化,可能对应论文《Scaling Laws for Neural Language Models》(2020年,ID:2001.08361)。
  • 更正后信息
    • 论文ID:2001.08361
    • 发表时间:2020

5. Scaling Laws for Transfer Learning

  • 订正说明:该领域的研究分散,但Google与OpenAI合作的论文《Scaling Laws for Transfer》发表于2021年,ID为arxiv:2102.01293(需核实具体内容是否匹配)。
  • 更正后信息
    • 论文ID:2102.01293(示例,需进一步验证)
    • 发表时间:2021

6. Data Scaling Laws

  • 订正说明:Google的PaLM项目相关论文《PaLM: Scaling Language Modeling with Pathways》发表于2022年,ID为arxiv:2204.02311
  • 更正后信息
    • 论文ID:2204.02311
    • 发表时间:2022

7. Lottery Ticket Hypothesis

  • 订正说明:原始论文由Frankle & Carbin于2018年发表,ID为arxiv:1803.03635,信息准确。
  • 无需更正

8. Scaling Laws for Multimodal Models

  • 订正说明:OpenAI的CLIP模型论文《Learning Transferable Visual Models From Natural Language Supervision》发表于2021年,ID为arxiv:2103.00020
  • 更正后信息
    • 论文ID:2103.00020
    • 发表时间:2021

9. FLOP-Efficiency Scaling Laws

  • 订正说明:NVIDIA与Meta的联合研究可能指向《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》(2022年,ID:2205.14135)。
  • 更正后信息
    • 论文ID:2205.14135
    • 发表时间:2022

10. Emergent Scaling Laws

  • 订正说明:Anthropic团队关于涌现现象的论文《Emergent Abilities of Large Language Models》发表于2022年,ID为arxiv:2206.07682
  • 更正后信息
    • 论文ID:2206.07682
    • 发表时间:2022

修订后表格

理论名称提出者/研究团队主要关注参数 / 关系核心思想及说明论文ID(arXiv)发表时间
Kaplan 理论/曲线OpenAI参数数量 ≫ 数据量主张在固定计算量(FLOPs)下优先扩展模型参数。增加模型参数数量能够显著提升性能;因而设计了超大规模模型(例如 GPT-3 的 175B 参数)但训练数据相对较少。Scaling Laws for Neural Language Models待确认
Chinchilla 理论曲线DeepMind参数与数据平衡在相同计算预算下,参数数量与训练数据应达到最佳平衡,避免参数过大导致资源浪费;实验表明减少参数并增加数据能够提升泛化能力。2203.155562022
Deep Scaling LawsOpenAI参数、数据、计算复杂度提出了模型性能(Loss)与 [N^{-a} + D^{-b} + C^{-c}] 的幂次关系,强调三者联合优化的重要性。2001.083612020
Optimal Compute AllocationDeepMind参数与数据反比配置研究在固定 FLOPs 下如何分配参数和训练数据,指出应该采用反比配置以充分利用计算资源,成为 Chinchilla 理论形成的基础。2203.155562022
Scaling Laws for Transfer LearningGoogle & OpenAI预训练与微调资源分配着眼于迁移学习阶段,探讨预训练和微调资源如何协同作用,展示如何通过调整两阶段的数据与参数协调优化模型在特定任务上的表现。2102.01293(示例)2021
Data Scaling LawsGoogle Research数据质量与多样性专注于训练数据的重要性,指出数据量增加对小模型提升更显著,同时强调高质量与多样化数据对大模型泛化能力的关键作用。2204.023112022
Lottery Ticket HypothesisJonathan Frankle 与 Michael Carbin参数稀疏性与子网络训练提出在大规模网络中存在可单独训练且表现稳定的子网络(“彩票”),暗示在大模型中并非所有参数都是必要的,从侧面支持减少有效参数以达到高效训练。1803.036352018
Scaling Laws for Multimodal ModelsOpenAI(CLIP团队)多模态数据对齐探讨不同模态数据如何协同优化模型性能,强调各模态间的比例与对齐关系是提升多模态模型效果的关键。2103.000202021
FLOP-Efficiency Scaling LawsNVIDIA & Meta计算资源高效利用注重硬件与算法的协调优化,提出通过混合精度、稀疏矩阵运算等技术,在固定 FLOPs 下提升模型训练与推理的资源效率。2205.141352022
Emergent Scaling LawsAnthropic临界规模下的能力涌现研究当模型规模增大超过某个临界值时,突然涌现出复杂能力(如推理、编程等),强调了超大规模模型在特定临界点后的能力突变现象。2206.07682«Emergent Abilities of Large Language Models》

Chinchilla 理论曲线

该理论是由 DeepMind 在 2022 年提出的一种关于 大规模语言模型(LLMs)训练效率的理论框架,它解决了早期 LLM 中普遍存在的 参数规模和训练数据量不平衡 的问题。简单来说,这个理论为 LLM 的 参数数量、训练数据量(tokens)和计算资源(FLOPs) 提供了一个优化指导,帮助模型在相同计算预算下实现更高效的性能

📅 0001-01-01 ⏱️ 14 分钟 📝 6959 字