Evaluation

Oolong

Oolong 是一个针对长上下文模型的挑战性聚合基准测试项目,包括相关代码和评估脚本(完整版本即将发布)。其目标是评估模型的长上下文推理和聚合能力。

📅 2025-11-09 📊 92 字 ⏱️ 1 分钟
#oolong #long context #evaluation