Open LLM Leaderboard 2是一个用于跟踪、排名和评估开放LLMs的Hugging Face空间,提供全面的信息和实时更新的数据,适用于研究人员、开发者和学生使用。
智能语音助手,让你的生活更智能、更便捷。
Gemini 系列是 Google DeepMind 推出的最新 AI 模型,具备强大的多模态处理能力,适用于内容创作、软件开发、教育培训等多个领域。
PubMedQA 是一个专注于生物医学领域的问答数据集,包含高质量的标注数据、丰富的无标签数据和大量生成的问答实例,支持医学研究、医疗咨询和健康管理等多种应用场景。
LLM-EVAL是一款高效的语言模型评估工具,帮助用户全面了解和优化模型性能,适用于研究、企业和教育等多种场景。
C-Eval 是一个多层次多学科的中文语言模型评估套件,提供全面的模型性能评测,适用于学术研究、企业开发和教育培训等多个场景。
MMBench是一个专为大型模型评估而设计的平台,提供透明、公正的评估环境,汇集最新模型的性能数据,助力AI技术发展。
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖67个主题,提供丰富的测试数据和排行榜。
MMLU Benchmark是一个多任务语言理解基准测试,旨在评估和比较不同模型在多任务语言理解方面的性能。Gemini Ultra是目前的领先模型,为用户提供了参考标准和指导。
SuperCLUE 是一个针对中文通用大模型的综合性测评基准,旨在评估模型在自然语言处理领域的表现,涵盖多轮对话、知识应用等多个维度。
Holistic Evaluation of Language Models (HELM) 是一个综合性基准,旨在提升语言模型的透明度和评估标准,所有数据和分析均可自由访问。
OpenCompass司南是一款全面、客观的评测工具,专为大语言模型和多模态模型提供得分与排名,助力用户深入了解模型能力。