OolongOolong 是一个针对长上下文模型的挑战性聚合基准测试项目,包括相关代码和评估脚本(完整版本即将发布)。其目标是评估模型的长上下文推理和聚合能力。📅 2025-11-09 📊 92 字 ⏱️ 1 分钟#oolong #long context #evaluation阅读全文 →