MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

AgroBench — датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области агрономии.

Агрономия — основа сельскохозяйственного производства. Она изучает различные аспекты возделывания культур и разрабатывает методы, направленные на защиту земледелия от неблагоприятных природных факторов. Агрономия взаимосвязана с эффективностью земледелия, охраной природы и устойчивым использованием земельных ресурсов.

Датасет создан на русском языке и является полностью оригинальным. Всего бенчмарк включает в себя 2935 вопросов закрытого типа с возможностью выбора одного или нескольких правильных вариантов ответа. Для каждого вопроса даны от четырех до восьми вариантов ответа. Вопросы охватывают области знаний по различным темам (дисциплинам): ботаника, кормопроизводство и луговодство, мелиоративное земледелие, общая генетика, общее земледелие, основы селекции, растениеводство, семеноводство и семеноведение, системы земледелия на различных агроландшафтах, технологии возделывания сельскохозяйственных культур.

Ключевые слова: Сельское хозяйство, АПК, Агропромышленный комплекс, Аграрный сектор, Ботаника, Кормопроизводство и луговодство, Мелиоративное земледелие, Общая генетика, Общее земледелие, Основы селекции, Растениеводство, Семеноводство и семеноведение, Системы земледелия на различных агроландшафтах, Технологии возделывания сельскохозяйственных культур

Авторы: Кубанский государственный аграрный университет

Мотивация

Данная задача является одним из восьми бенчмарков в наборе по сельскому хозяйству и предназначена для проверки профессиональных знаний в области агрономии. По своей структуре и назначению она напоминает общеизвестный тест MMLU и подходит для всестороннего тестирования языковых моделей на качество понимания и ответов в професиональной области. Мы предоставляем публичную тестовую версию агробенчмарка по формату MMLU на русском языке для оценки возможностей моделей на реальных профессиональных задачах.

Описание датасета

Поля датасета

subset — строка, обозначающая предметную область вопроса;
answer — строка, содержащая буквы правильных ответов через запятую (от A до H);
context — список словарей, где каждый словарь описывает роль и содержимое внутри роли;
role — строка, определяющая роль (например, "system" или "user");
content — строка, содержащая собственно сообщение (в рамках "user" это формулировка тестового вопроса с вариантами ответа, в рамках "system" это строка, содержащая инструкции для задачи и информацию о требованиях к формату вывода модели).

Промпты

Для датасета было подготовлено 10 промптов различной сложности.

Пример:

"Ниже приведены вопросы с множественным выбором (с ответами) по теме {subset}. Напиши только букву\/буквы ответа."

Создание датасета

Все задачи данного сета были созданы ведущими экспертами в области агрономии, отредактированны профессиональными редакторами, затем вручную перепроверены по очереди тремя экспертами.

Метрика

В качестве метрики качества используется Accuracy, Exact Match.

ruTXTAgroBench