👉

Benchmarking LLM Evals

Resources

Eval Research and Github Resources

OpenAI Eval
Google Vertex AI - Model Evaluation
PromptBench: A Unified Library for Evaluating and Understanding Large Language Models, from Microsoft, Leaderboards
Eluether AI - framework for few-shot evaluation of autoregressive language models
Zeno Evaluation Hub
PremAI Evaluation Guide

Page updated

Google Sites

Report abuse