Evaluation

Oolong

Oolong 是一个针对长上下文模型的挑战性聚合基准测试项目，包括相关代码和评估脚本（完整版本即将发布）。其目标是评估模型的长上下文推理和聚合能力。

📅 2025-11-09 📊 92 字 ⏱️ 1 分钟

#oolong #long context #evaluation

阅读全文 →