КОЕ-ЧТО о рейтинге
В связи с предстоящим заседанием президиума РФГ во время проведения Кубка LG настало время подвести итог дискуссии по рейтинг-системам. Вот краткое информационное резюме по РС.
Рейтинг - это термин, происходящий из теории вероятностей и математической статистики. Дословно "рейтинг" (rating) означает "оценка". Что же "оценивает" рейтинг? Во многих сферах человеческой деятельности встречаются величины (признаки, параметры), имеющие предположительно численную природу, но конкретные значения этих величин, однако, не поддаются прямому физическому измерению. Многовековая практика выработала для таких величин так называемые методы экспертных оценок, когда группа лиц ("экспертов") дает заключение о характере распределения величины по некоторой, достаточно условной в большинстве случаев, шкале числовых значений. Примерами могут быть рейтинги популярности политиков, отдельных артистов и творческих коллективов, оценки успеваемости в образовании, оценки спортсменов при выступлении на соревнованиях в таких видах спорта, как художественная и спортивная гимнастика, фигурное катание, прыжки в воду, фристайл и т.п. Примененяют рейтинги и в некоторых командных видах спорта, например футбольные рейтинги европейских стран или рейтинги ФИФА.
В таких игровых видах спорта, как теннис, шахматы, шашки и некоторых других, применение рейтингов в целях ранжировки спортсменов по силе игры стало общепринятой нормой, хотя там есть и прямые методы сопоставления - путем проведения соревнований. Но необходимость рейтингов в спорте обусловливается тем, что, во-первых, всех собрать на одно глобальное соревнование невозможно, и во-вторых - расстановка по местам дает только ранжировку на данном соревновании, не всегда объективно отражающую реальное соотношение сил среди всех спортсменов. Кроме того, сила спортсмена - очень переменчивый фактор, требующий для оперативного отслеживания его изменения дополнительных методов. В роли одного из таких методов и выступает применяемая в том или ином виде спорта рейтинг-система (РС), представляющая собой совокупность математических методов вычисления "оценки" - рейтинга отдельных спортсменов или команд по результатам выступления в различных соревнованиях.
Исторически первыми РС в спорте можно считать спортивные классификации по разрядам и званиям. Развитие спорта и рост популярности этой сферы деятельности привели к необходимости введения более точных шкал и, соответственно, методов оценки уровня мастерства. Поистине революционным шагом можно считать разработку профессором А.Эло в 50-х годах XX века новой системы оценки относительной силы шахматистов, которую с тех пор и называют его именем: "рейтинг-система Эло". Большинство современных РС в той или иной степени основываются на идеях, заложенных в РС Эло.
Итак, РС нужны для максимально точного отражения соотношения сил, "ранжировки", и динамичного отслеживания изменения этого соотношения, выражаемого в распределении численных значений некоторого условного параметра, когда в той или иной сфере деятельности отсутствуют прямые методы физического измерения оцениваемой величины. Другой не менее важной задачей РС является предсказание будущих результатов, т.е. математически обоснованное прогнозирование, с которой РС типа Эло успешно справляются на протяжении вот уже полувековой истории своего существования.
Каковы же основополагающие принципы построения современных РС?
Каждому участнику РС приписывается некоторая условная численная величина - "рейтинг", отражающая уровень мастерства, силу игры, авторитетность или значимость этого члена РС в данной сфере деятельности. Методами математической статистики, как правило, может быть определен доверительный интервал и доверительная вероятность, характеризующие точность РС. Популярно это означает, что оценка с помощью рейтинга имеет вероятностный характер и абсолютно точно указать оцениваемый параметр в принципе невозможно. Например, спортивные классификации имели в вероятностном смысле точность порядка 1-2 разряда (величина доверительного интервала) с доверительной вероятностью порядка 50%. То есть, про спортсмена, например шахматиста 1-го разряда, можно было сказать: "вероятность того, что данный спортсмен соответствует признанному уровню 1-го разряда (не ниже самых слабых перворазрядников и не выше самых сильных) примерно равна 50%". Эта оценка, конечно, грубая и условная. Вполне может быть, что где-то точность была и выше, а где-то и ниже. Для более строгих заключений необходимо анализировать систему присвоения разрядов и статистические данные по всем выступлениям всех спортсменов в соревнованиях.
Ограничимся далее только сферой спорта и рассмотрим, как "работают" РС. Рейтинг изменяется в зависимости от выступления на соревнованиях. Если результат превосходит прогнозируемую величину - рейтинг повышается, в противном случае - понижается. Поправки вычисляются по формулам, обосновываемым с помощью методов матстатистики. Как правило, РС увязываются с существующими традиционными классификациями типа разрядов и званий - в условия выполнения квалификационных требований включаются условия и по рейтингу. Для го обычно стремятся РС увязать с традиционной системой кю-данов, для чего при расчете поправок к рейтингу учитываются и выступления в форовых турнирах, а даны и кю сопоставляются с определенными значениями рейтинга.
Вот, кратко, суть РС, в том числе и РС Эло, без которой сегодня уже трудно представить себе шахматный мир, а также многие другие сферы деятельности. Несколько слов о некоторых практических РС и их особенностях. В теннисе применяют РС другого типа. Ранжировка определяется по результатам турниров, причем влияние их на рейтинг зависит от значимости, главным критерием которой является призовой фонд. Точность и достоверность в этой РС достаточно обоснованно определить вряд ли возможно. Шахматная РС выявила в процессе использования ряд отрицательных моментов, главным из которых является снижение рейтинга ведущих шахматистов при включении в РС новых быстро прогрессирующих шахматистов. Для борьбы с этим были разработаны специальные условия входа в РС для молодых мастеров. Были некоторые проблемы и при согласовании национальных рейтингов с рейтингом ФИДЕ, пока не перешли к единой мировой РС. В других видах игр (шашки, го) РС в основном повторяют шахматную, с некоторыми модификациями. Опыт применения РС типа Эло имеют AGA (Американская го-ассоциация), ряд европейских национальных го-федераций, а также Европейская го-федерация (ЕГФ). В целом дисбаланс по национальным РС достигает почти 2 дана (а в области нижних кю, скорее всего, еще больше), что подтверждается статистическими данными, опубликованными на сайте ЕГФ.
Сегодня, в связи с бурным прогрессом информационных технологий, становятся популярными различные состязания через интернет. Существует порядка двух десятков игровых го-серверов. На всех из них применяются РС, как правило согласованные с традиционным форовым принципом. Исключением является, пожалуй, только китайский сервер CTN (другое название - Harmony Go Server), на котором практически не играются форовые партии. В результате, хотя РС и выстраивает всех по ранжиру, ни о каком соответствии данов и кю этого сервера и других РС говорить не приходится, так как известны (и не один) игроки, имеющие подтвержденный 1-3 дан на серверах KGS, NNGS, WING, IGS, LGS и быстро опускающиеся до 4-8 кю на сервере CTN. Не все серверы используют РС типа Эло. Часть серверов применяют РС итерационного типа (KGS, возможно NNGS), в которых текущий рейтинг зависит от почти всей предыстории, т.е. после каждой новой партии проводятся итерации по рейтингу с целью обеспечить максимальное совпадение результата по всем учитываемым партиям с вероятностным прогнозом (без учета возможного изменения силы игры за охватываемый период). В целом наблюдается большой разброс в оценке одних и тех же игроков в различных РС. Неизбежное сползание рейтингов (о механизме этого явления говорилось неоднократно) вынуждает администрацию серверов время от времени производить разовые корректировки рейтингов в сторону увеличения (скорей всего на базе экспертных оценок).
Общие выводы из приведенного обзора таковы. Большинство РС базируется сегодня на принципах, заложенных А.Эло в шахматной РС. Главные проблемы: привязка к традиционным классификациям, эффект сползания рейтингов, несогласованность различных РС, недостаточная обоснованность параметров РС или полное отсутствие таковой в математическом плане.
КАКУЮ РС ХОТЕЛОСЬ БЫ ИМЕТЬ
Так что же мы, российские игроки го, ожидаем получить от РС?
Во-первых, РС должна достаточно точно отображать расстановку сил во всей шкале уровней игры (при соответствующей доверительной вероятности, желательно поближе к 100%). Прикидки на основе теоретико-вероятностного анализа и методов матстатистики позволяют надеяться получить точность порядка плюс-минус 25 очков рейтинга в группе данов с достоверностью для стабильных игроков не менее 90%. В группе кю-игроков точность плавно должна снижаться к самому низу примерно в 2-3 раза. Это очень приличная точность и мне неизвестна пока РС (из применяемых сейчас), которая имела бы такие хорошие показатели.
Во-вторых, РС должна быть устойчивой к различным возмущениям типа быстрого роста или случайных колебаний уровня игры у отдельных нестабильных игроков, ошибок начального присвоения и т.п. РС должна быть защищена от таких нежелательных явлений, как сползание рейтинга отдельных групп стабильных игроков или всей системы в целом. С другой стороны, рейтинг должен достаточно оперативно (за 1-2 турнира) поспевать за динамикой изменения силы игры у быстро прогрессирующих игроков.
В-третьих, РС должна быть согласована с традиционной системой кю-данов так, чтобы уровень игры, определяемый присвоенными и подтвержденными официально разрядами (данами) и званиями, соответствовал принятому для этого уровня рейтингу в пределах декларируемой точности. Ну и желательно, чтобы РС была максимально согласована с другими РС, принятыми в международной практике го.
Все формулы и параметры РС должны обосновываться математическими методами и постоянно уточняться по результатам статистического анализа учитываемых рейтинговых партий, включая форовые.
Такая почти идеальная РС пока не создана, но мы будем стремиться максимально приблизиться к ней.
С уважением и благодарностью ко всем, кто принял участие в дискуссии,
Сергей Павлов.
Отправка отредактированного (15/06/03 08:09)
Смотри в корень