Update vom Dezember 2023:
neues Eingabefeld „minimalste Bewertung > 0 für Gewinn Weiß = 100 %
zur Berechnung der WDL-Auswertungen #(,##)“:
dieser Wert dürfte bei Verwendung der Stockfish-Engine empirisch bei circa 2,35 liegen; ab dieser Bewertung gelten Stellungen
statistisch zu 100 % als gewonnen und ab dem Negativbetrag dieser Bewertung zu 100 % als verloren; fast alle
WDL-Auswertungen im Programm basieren auf diesem Wert und gewinnen durch ihn wesentlich an Präzision.
Hinweise zum Formular:
Nicht alle 13 Eingabefelder sind mit Parametern auszufüllen. Sofern das Programm Angaben vermisst, werden diverse
Fehlermeldungen in roter Farbe und blinkend ausgegeben.
Alternativ „Zugbewertung(en) für ⊙ Weiß ⊚ Schwarz“:
Von Bedeutung für die Auswertung der hohen und suboptimalen Zugbewertung.
Hohe „Zugbewertung (-##)#(,##)“:
Zwischen -999,99 und 999,99.
Suboptimale „Zugbewertung (-##)#(,##)“:
Zwischen -999,99 und 999,99. Falls „Weiß“ gewählt wurde, muss diese kleiner als die hohe Zugbewertung
ausfallen, im Fall von „Schwarz“ ist sie rein numerisch auf der horizontalen x-Koordinaten-Achse
höher.
2 x 3 Gewinn/Remis/Verlust-Prozentangaben, „Zugnummer - Berechnung der Stockfish-WDL-Statistik“:
Die den beiden Zugbewertungen jeweils nachfolgenden Prozentangaben zwischen 0 und 100 sind nicht
erforderlich, sofern das „Zugnummer“-Feld mit einer Zahl ab 1 versehen wird. Findet das Programm keine
korrekten Prozentangaben, erfolgt dann eine automatische Kalkulation der 3
Gewinn/Remis/Verlust-Prozentsätze. Wird keine Zugnummer angegeben, genügen 2 Prozentangaben, die dritte
wird vom Programm errechnet. Prozentangaben, die insgesamt 100 überschreiten oder zu einer
Bewertungsrelevanz führen, die sich nicht zwischen 0 und 1 bewegt, werden vom Programm nicht
akzeptiert.
„minimalste Bewertung > 0 für Gewinn Weiß = 100 % zur Berechnung der WDL-Auswertungen #(,##)“:
dieser Wert dürfte bei Verwendung der Stockfish-Engine empirisch bei circa 2,35 liegen; ab dieser
Bewertung gelten Stellungen statistisch zu 100 % als gewonnen und ab dem Negativbetrag dieser
Bewertung zu 100 % als verloren; fast alle WDL-Auswertungen im Programm basieren auf diesem Wert
und gewinnen durch ihn wesentlich an Präzision.
„Bewertung an 0,75-Partieresul.-Probabil. (e=0.75) (##)#(,##)“ (abgekürzt
„e=0.75“):
Das ist diejenige Bewertung aus Sicht von Weiß auf der horizontalen x-Koordinaten-Achse („x“), bei der
das durchschnittliche probabilistische Partieresultat 0,75(:0,25) zugunsten von Weiß beträgt. In der
ursprünglichen Artikelversion wurde es als „Gewinn-Remis-Balance“ bezeichnet. Die Bewertungs-Relevanz
auf der vertikalen y-Koordinaten-Achse beträgt dort 0,5.
„Bewert. an 0,75+-Partier.-Prob. (e>0.75) > e=0.75 (##)#(,##)“ (abgekürzt
„e>0.75“):
Das ist diejenige Bewertung aus Sicht von Weiß auf der horizontalen x-Koordinaten-Achse („x“), bei der
das durchschnittliche probabilistische Partieresultat höher als 0,75(:0,25) zugunsten von Weiß ausfällt.
Diese Bewertung ist höher als die vorhergehende. Sie stellt im Vergleich zum ursprünglichen Formular
einen neuen Parameter dar, der zu zusätzlicher Präzision verhilft. Er korrespondiert mit dem
nachfolgenden letzten Parameter. Die Bewertungs-Relevanz auf der vertikalen y-Koordinaten-Achse liegt
dort unter 0,5.
„1,00 > 0,75-plus-Partieresultat-Probabilität > 0,75 0,#(####)“ = 1 - (r>0.75 / 2):
Diese stellt das durchschnittliche probabilistische Partieresultat zugunsten von Weiß auf der vertikalen
y-Koordinaten-Achse („y“) im Fall der zuvor einzugebenden Bewertung „e>0.75“ dar. Dieses
Partieresultat liegt über 0,75(:0,25) und stellt im Vergleich zum ursprünglichen Formular ebenfalls
einen neuen Parameter dar, der zu zusätzlicher Präzision verhilft.
Die Anzeige der Resultate setzt die Erlaubnis zur Ausführung von Javascript-Code im Browser voraus.
Stellungsbewertungssymbole und Grenzwerte bei Anwender/Engine-WDL-BRR Grenzwert-Justierung an identischen Stellungsbewertungssektoren 9 Sektoren: 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
Stellungsbewertungssymbole
Farbe
hohe Bewertung
suboptimale Bewertung
Anwender- BRR
Engine- WDL-BRR
Anwender- BRR
Engine- WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR
Engine-WDL-BRR
klarer/extremer Vorteil Weiß (+– ⇒ ++–)
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)
klarer/extremer Vorteil Schwarz (––+ ⇐ –+)
Stellungsbewertungssymbole und Grenzwerte bei Anwender/Engine-WDL-BRR Grenzwert-Justierung an identischen Stellungsbewertungssektoren 7 Sektoren: 1/7 1/7 1/7 1/7 1/7 1/7 1/7
Stellungsbewertungssymbole
Farbe
hohe Bewertung
suboptimale Bewertung
Anwender- BRR
Engine- WDL-BRR
Anwender- BRR
Engine- WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR
Engine-WDL-BRR
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)
Stellungsbewertungssymbole und Grenzwerte bei Anwender-BRR: Grenzwert-Justierung an probabilistischen Partieresultaten bei Engine-WDL-BRR: Grenzwert-Justierung an beiden Bewertungen 9 Sektoren
Stellungsbewertungssymbole
Farbe
hohe Bewertung
suboptimale Bewertung
Anwender- BRR
Engine- WDL-BRR
Anwender- BRR
Engine- WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR
Engine-WDL-BRR
klarer/extremer Vorteil Weiß (+– ⇒ ++–)
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)
klarer/extremer Vorteil Schwarz (––+ ⇐ –+)
Stellungsbewertungssymbole und Grenzwerte bei Anwender-BRR: Grenzwert-Justierung an probabilistischen Partieresultaten bei Engine-WDL-BRR: Grenzwert-Justierung an beiden Bewertungen 7 Sektoren
Zug- und Stellungsbewertungen
nebst NAG- und Informator-Symbolen
Schachspieler pflegen Züge und Stellungen auf dem Brett unter Verwendung derartiger Symbole wie
folgt zu taxieren:
brillanter Zug (‼) – NAG $3,
beeindruckender Zug (!) – NAG $1,
ansprechender Zug (!?) – NAG $5,
fragwürdiger Zug (?!) – NAG $6,
schwacher Zug (?) – NAG $2,
miserabler Zug (??) – NAG $4,
ausgeglichene Stellung oder Remis (=) – NAG $10,
leichter Vorteil für Weiß (⩲ oder +/=) – NAG $14,
leichter Vorteil für Schwarz (⩱ oder =/+) – NAG $15,
moderater Vorteil für Weiß (± oder +/-) – NAG $16,
moderater Vorteil für Schwarz (∓ oder -/+) – NAG $17,
klarer Vorteil für Weiß (+-) – NAG $18,
klarer Vorteil für Schwarz (-+) – NAG $19,
extremer Vorteil für Weiß (++-) – NAG $20,
extremer Vorteil für Schwarz (--+) – NAG $21.
Ergänzend sei noch erwähnt die unklare Stellung (∝) – NAG $13. Sie gehört eigentlich nicht
hierher, da sie gerade zum Ausdruck bringt, dass eine Stellungsbewertung (angeblich) nicht
möglich ist.
Vorbehalt: Die obigen deutschen Umschreibungen für all diese Symbole sind Eigenkreationen und
selbstredend keineswegs verbindlich. Näheres ist
hier zu
finden.
Solche Zug- und Stellungseinschätzungen sind durchaus praktisch: Sie verschwenden wenig Raum und
mit einem Blick lassen sie einen Bewertungsbereich erkennen. Nur stellt sich die Frage, wie
solche Bewertungen zustande kommen. Pi mal Daumen? Oder geht es auch etwas genauer? Es würde
schon einen Fortschritt darstellen, wenn sie definiert würden von irgendwelchen
Schachprogrammbewertungen in Bauerneinheiten, mit denen Schachengines Stellungsungleichgewichte,
also Stellungsvorteile oder ‑nachteile zahlenmäßig ausdrücken. Aber woher solche Definitionen
nehmen, wenn nicht stehlen? Ab welcher Stellungsbewertung einer Schachengine lässt sich zum
Beispiel von einem leichten Vorteil für Weiß sprechen, ab 0,10 Bauerneinheiten oder ab 0,20 –
wenn man einmal von individuellen Über- oder Untertreibungen der Engines bei der Höhe ihrer
Bewertungen absieht? Und wie lässt sich hier ein objektiver Maßstab finden?
Im weiteren Verlauf dieses Artikels werden hierzu etliche mathematisch abgeleitete Vorschläge mit
entsprechenden Formeln unterbreitet werden. Zuvor sind jedoch diverse statistische und
mathematische Grundlagen zu erarbeiten.
Patzerrelevanz oder höflicher: Bewertungs-Relevanz
Schachprogramme bewerten Stellungen gewöhnlich in Hundertstel von Bauerneinheiten und wenn man
vom Rechenknecht ausgespuckte Varianten in einer Stellung vergleicht, erkennt man die
Bewertungsdifferenz bzw. Fehlermarge zwischen der besten und einer minderwertigen Variante.
Wie relevant sind aber eigentlich Fehlzüge und deren Bewertung? Beispiel: In einer verlorenen
Stellung nach kompensationslosem Verlust der Dame stellt man ohne Not zusätzlich noch eine
weitere Figur ein. Das Schachprogramm wird dieses Malheur mit einer deutlich höheren Bewertung
zugunsten des Gegners quittieren. Wie relevant ist aber nun eine solche Differenz zwischen der
neuen und der vorherigen Stellungsbewertung in einer praktisch schon verlorenen Partie? Objektiv
– also von subjektiven Fehlzügen des Gegners mal abgesehen – eigentlich gar nicht! Der Patzer
wird die Partie nach menschlichem Ermessen auch ohne den neuerlichen Fehlzug bei beiderseits
bestem Spiel nicht mehr retten können.
Um es auf die Spitze zu treiben: Ab welcher Bewertung kann denn eine Partie objektiv als gewonnen oder
verloren gelten? Kommt darauf an. Man könnte ironisch sagen: Je Stümper desto höher. Je höher die Bewertung,
desto eher kann man darauf bauen, dass selbst von einem Amateur der Vorsprung nicht mehr vermasselt wird,
wobei man bei heutigen Schachcomputerprogrammen mehr Vertrauen investieren darf, als beim Homo sapiens. Und
wenn man es mit einem potentiellen Patzer zu tun hat, sollte man zum Beispiel in einer scheinbaren
Verluststellung nicht vorzeitig die Flinte ins Korn werfen, wie etwa weiland Kasparov in der
2. Wettkampfpartie
gegen Deep Blue im Jahr 1997.
Computerschachstatistiken
Was also tun? Man nehme Abschied vom Menschen-Stümper-Schach und wende sich den stärksten Schachengines zu. Nun kann man
prinzipiell zwei Wege beschreiten:
Stockfish-WDL-BRR:
Seit Mitte 2020 stellt Stockfish neben den eigentlichen Bewertungen Gewinn/Remis/Verlust-Abschätzungsquoten („WDL“ für
win-draw-loss) zur Verfügung. Um mit den Worten des Stockfish-Entwicklereams zu sprechen:
„UCI_ShowWDL
If enabled, show approximate WDL statistics as part of the engine output. These WDL numbers model expected game outcomes for a
given evaluation and game ply for engine self-play at fishtest LTC conditions (60+0.6s per game).“
„UCI_ShowWDL
Wenn aktiviert, werden ungefähre WDL-Statistiken als Teil der Engine-Ausgabe angezeigt. Diese WDL-Zahlen modellieren die
erwarteten Spielergebnisse für eine gegebene Bewertung und einen gegebenen Spielverlauf für das Selbstspiel der Engine unter
Fishtest-LTC-Bedingungen (60+0,6s pro Spiel).“
Diese WDL-Statistiken bzw. -Wahrscheinlichkeiten berücksichtigen insofern den Spielverlauf, als sie den bewerteten Halbzug in
Rechnung stellen. Die ihnen zugrundeliegenden Formeln finden sich im Stockfish-Programmcode
(„win rate model“). Die
Verwendung dieser Statistiken muss nicht zwangsläufig auf Spielanalysen beschränkt werden, die mit Stockfish erfolgen, denn
diese Engine ist das Nonplusultra der Stellungsanalyse und setzt daher den Bewertungsstandard.
Der Clou der Stockfish-WDL-Statistiken ist nicht nur die Ableitung der in diesem Artikel besprochenen Bewertungsrelevanzen und
-differenzen, Optimumquoten, probabilistischen Partieresultate, Zug- und Stellungsbewertungssymbole inklusive Grenzwerte in
ähnlicher Weise wie bei der nachfolgend dargestellten Anwender-BRR. Die aus ihr resultierenden Durchschnittswerte (vgl.
„Bewertungs-Vergleich Anwender/Engine-BRR“, Zeile 3, Spalten 3 und 6 im Programm) können wertvolle Anhaltspunkte für die
Justierung der Parameter der Anwender-BRR liefern.
Hierzu übrigens ein kleiner Programmtrick: Eingabe von „0“ (Null) in die beiden Zugbewertungsfelder und das „Halbzug“-Feld
löscht den programminternen Speicher für diese beiden Durchschnittswerte, die beim Laden und Speichern der Parameter erhalten
bleiben.
Experimente nach dem Stockfish-Update vom 22. Juni 2023 legen nahe, dass bei Stockfish-Bewertungen von circa ±2,35 eine
absolute Gewinn/Verlust-Wahrscheinlichkeit von 100 % besteht. Dieser Wert wurde bei der Kalkulation der WDL-Werte im obigen
Formular als absolute Relevanzgrenze herangezogen. Darüber hinausgehende Werte spielen für relevante WDL-Bewertungsdifferenzen,
WDL-Zugbewertungssymbole, WDL-Positionsbewertungssymbole etc. keine Rolle. Ferner wurde experimentell festgestellt, dass bei
Bewertungen in Höhe von circa 0,98 das probabilistische Partieresultat für Weiß bei circa 0,75 und bei Bewertungen in Höhe von
circa 1,18 das probabilistische Partieresultat für Weiß bei circa 0,875 liegt.
Eine kleine Einschränkung darf nicht unerwähnt bleiben. Die automatische Ermittlung der Gewinn-, Remis- und Verlust-Prozentsätze
für eine Bewertung mittels Eingabe des Halbzuges führt zu Resultaten, die leicht von denjenigen abweichen, die Stockfish selbst
errechnet. Der Stockfish-Code im Unterprogramm „win_rate_model“ zeitigt außerhalb von Stockfish bizarre Ergebnisse. Die dortige
Variable „v“, die mit der Bewertung zusammenhängt, muss mit einem unbekannten Faktor multipliziert werden. Einige wenige
Vergleiche der vom „win_rate_model“-Code stammenden Prozentsätze mit den unmittelbar von Stockfish produzierten Werte legen
nahe, dass dieser Faktor etwa im Bereich 328 liegen dürfte. Diese Zahl 328 kommt übrigens im Stockfish-Code an anderer Stelle
als „NormalizeToPawnValue“ ausdrücklich vor. Die im aktuellsten Update des „win_rate_models“ vom 22. Juni 2023 enthaltenen
Kalkulations-Parameter zeitigen Resultate, die mit den von der Stockfish-Engine erzeugten Werten einigermaßen in Einklang
gebracht werden können, wenn der zu multiplizierende Faktor auf 330,3 angehoben wird.
Anwender-BRR:
Die traditionelle, in diesem Artikel vorgestellte Variante ist die Analyse der Engine-Partien unter der Fragestellung, ab
welcher Bewertung diese Programme ihre Partien gewonnen haben – oder auch nicht. Die aussagekräftigsten Partien finden sich
vermutlich im Internet unter „TCEC“ („Top Chess Engine
Championship“) jeweils in den „Superfinals". Gründe: Hohe Bedenkzeit, Gegner waren jeweils die beiden scheinbar besten
Schachengines und alle Stellungsbewertungen sind Zug für Zug nachvollziehbar.
Gibt es statistisch betrachtet eine Art "point of no return", eine Bewertung – natürlich abgesehen von einer
konkreten Mattansage – ab der der Sieg ohne jegliche Zweifel unter Dach und Fach gebracht ist und eine
Remisabwicklung nicht mehr in Betracht kommt? Theoretisch Nein. Die nachfolgende TCEC-Superfinal-Tabelle
zeigt, dass Schachengines Bewertungen von bis zu 5,01 nicht in Siege umzumünzen vermochten. Und niemand vermag
zu sagen, wo die absolute Bewertungsgrenze für derartige Bewertungsirrtümer – bestes Spiel in den
nachfolgenden Zügen unterstellt – zu liegen vermag, da es niemandem vergönnt ist, diese Grenze mit einer
unendlichen Anzahl von Testpartien zu ermitteln.
Auch wenn solche Ausreißer höchst selten vorkommen, verbieten sie die Gleichsetzung irgendeiner Bewertung
(selbst von 5,01 – wie man sehen konnte) mit Sieg oder Niederlage. Anders ausgedrückt: Es gibt
bewertungstechnisch keinen "point of no return".
Nun muss man sich noch der Frage zuwenden, bei welchen Bewertungen denn bestimmte durchschnittliche
Partieresultate zu verorten sind. Von besonderem Interesse erscheinen Bewertungen, bei denen, einmal erreicht,
sich das durchschnittliche Resultat aller betroffenen Partien auf 0,75 (aus Sicht von Weiß) beläuft. Ein
solcher Wert kann etwa zustandekommen durch eine gleiche Anzahl von Siegen und Remisen oder auch durch eine
Anzahl von Niederlagen und einer dreifachen Anzahl von Siegen. Verlustpartien werden hier der Vollständigkeit
halber auch erwähnt, obwohl sie bei Erreichen dieser speziellen Gleichgewichtsbewertung selten vorkommen.
Zur Verdeutlichung erst einmal tabellarisch die Resultate der Superfinals in den Seasons 9 ff. sowie des
FIDE-Kandidatenturnier 2018 mit den auf
„www.chessbomb.com“
zu findenden Bewertungen von Stockfish bei einer Bedenkzeit von 30 Sekunden.
Turnier
Analyse- Engine
Siege
Bewertung e=0.75 bei durch- schnittlichem Partieresultat 0,75(:0,25)
maximale Bewertung e>0.75 ohne Sieg
durchschnittliches Partieresultat bei maximaler Bewertung e>0.75 ohne Sieg
Die obige Auswertung am Beispiel des Superfinals Nr. 17 und der Siegerengine LCZero v0.24-sv-t60-3010 erklärt:
LCZero gewann 17 Partien.. 83 Partien endeten demnach mit Remis oder Verlust für LCZero. Und in all diesen
Partien ist nun die siebzehntniedrigste Bewertung zu suchen, die LCZero zu seinen Gunsten angab. Wohlgemerkt
eine für ihn positive Bewertung, die nicht zum Sieg verwertet werden konnte. Man zählt also die 17 höchsten
Bewertungen ab und die niedigste hiervon ist 1,26. Es existieren also 17 Remis- oder Verlustpartien, in denen
jeweils mindestens eine Bewertung von 1,26 anzutreffen ist. Anders ausgedrückt: In 34 Partien wurde von LCZero
eine Bewertung von 1,26 erreicht und in jeweils 17 Partien war das Ergebnis entweder Remis/Verlust oder aber
1-0.
Nun steckt aber in diesen Zahlen eine kleine Komplikation: LCZero musste in der 16. Partie eine Niederlage
quittieren, obwohl es zuvor bereits eine Bewertung von 1,89 ausgespuckt hatte und 1,89 liegt über dem zuvor
ermittelten Bewertungsgrenzwert von 1,26. Wegen diesem „0“-Resultat gelingt es nicht, anhand der faktischen
Resultate ein durchschnittliches Partieresultat von 0,75 zu ermitteln. Denn dieses beträgt ja
anstatt 0,75. Wenn die realen Zahlen störrisch sind, muss die Mathematik eingreifen. Die Formel für die
durchschnittlichen Partieresultate zwischen 0,5 und 0,75 auf der y-Koordinatenachse ist eine lineare Funktion
und lautet:
Gesucht ist die ominöse 0,75-Partieresultat-Bewertung (abgekürzt „e=0.75“). Also muss umgeformt
werden:
Im vorliegenden LCZero-Fall ist also zu rechnen:
Das Ergebnis liegt also etwas über der faktisch ermittelten e=0.75, was zu erwarten war.
Im September 2017 erschien die Engine Houdini 6 über die auf dieser
Webseite folgendes zu lesen
ist:
„The evaluations have again been calibrated to correlate directly with the win expectancy in the
position. A +1.00 pawn advantage gives a 75% chance of winning the game against an equal opponent
at blitz time control. At +1.50 the engine will win 90% of the time, and at +2.50 about 99% of
the time. To win nearly 50% of the time, you need and advantage of about +0.60 pawn.“
Zu Deutsch:
„Die Bewertungen sind wieder so kalibriert worden, dass sie direkt mit der
Gewinnwahrscheinlichkeit in der Position korrelieren. Ein +1,00 Vorteil in Bauerneinheiten ergibt
eine 75 %-Wahrscheinlichkeit gegen einen gleichwertigen Gegner im Blitzspiel zu gewinnen. Bei
+1,50 gewinnt die Engine zu 90 % und bei +2,50 etwa zu 99 %. Um fast zu 50% zu gewinnen, wird ein
Vorteil von etwa +0,60 Bauerneinheiten benötigt.“
Houdini hielt Wort. Im TCEC-Superfinal Season 10 gegen Komodo errang Houdini 15 Siege und in den 15 Remis-
bzw. Verlustpartien mit den höchsten Bewertungen von Houdini war die Mindestbewertung 0,66. Eine fast
punktgenaue Landung.
Die obige Tabelle lässt den vorsichtigen Schluss zu, dass die seit dem TCEC-Superfinal 13 verwendeten
Stockfish-Versionen deutlich höhere Bewertungen auswerfen als ihre Vorgängerversionen. Eines darf bei der
Interpretation dieser Ergebnisse nicht unter den Tisch fallen: Stockfish 10 wurde ein "contempt" von 0,24
(Stockfish 9: 0,20) spendiert, der die jeweilige Bewertung anheben dürfte. Es scheint daher nahezuliegen, für
eigene Analysezwecke diese Geringschätzungsmarge von den in der Tabelle aufgeführten Bewertungsgrenzwerten zu
subtrahieren. Ein Tipp sei allerdings gestattet: Analysen mit Stockfish sollten nur mit ausgeschaltetem
"contempt" erfolgen, um die Bewertungen nicht künstlich in die Höhe zu treiben.
Und zuletzt sei noch erwähnt, dass die TCEC-Webseite neuerdings mit der Anzeige von
Gewinn-Remis-Wahrscheinlichkeiten aufwartet und die e=0.75 für die Engine Stockfish bei circa 1,56
(Superfinal 17) bzw. sogar 1,91 (Superfinal 18) verortet. Angesichts der vorhergehenden Tabelle ein durchaus
plausibler Wert. Kritikabel ist allerdings, dass dort nur Prozentsätze für „W“ (win?) und „D“ (draw? –
100 % - „W“-Prozentsatz) angegeben werden, die Verlust-Wahrscheinlichkeit aber unter den Tisch fällt. Die
oben vermutete TCEC-e=0.75 von 1,56 basiert notgedrungen auf der Annahme, dass unter „D“ auch die
Verlust-Wahrscheinlichkeit zu subsumieren ist.
Mathematische Bewertungs-Relevanz-Reduktion
Halten wir fest: Auf dem Weg der Bewertung zwischen 0,00 und Unendlich (∞) nimmt deren Relevanz kontinuierlich
ab. Beginnend mit 100 % im Fall einer Bewertung von 0,00 über 50 % bei der
e=0.75-Bewertung (nachfolgend wird zur Verdeutlichung der TCEC-Wert von 1,56 beispielhaft
unterstellt) endet sie im Unendlichen mit 0 %.
Ein Beispiel:
Die Bewertung für den besten Zug beträgt 2,00. Nun passiert ein Missgeschick: ein Fehlzug wegen Figurenverlust
mit einer Bewertung von -3,00. Die absolute Bewertungsdifferenz beträgt -5,00. Wie relevant ist dieser
Figurenverlust? Offensichtlich weniger als -5,00.
Im Einzelnen:
Zwischen den Bewertungen 2,00 und 1,56 wächst die Relevanz kontinuierlich;
bei 1,56 soll sie 50 % betragen; denn dies ist der Mittelwert zwischen 100 % und 0 %; ferner ist
das probabilistische Partieresultat von 0.75 bei der Bewertung 1.56 der Mittelwert zwischen 0.5 bei der
0.00-Bewertung und 1 bei einer maximalen Enginebewertung;
bei 0,00 erreicht die Relevanz ihren Höchstwert mit 100 %;
-1,56 schlägt dann wieder mit 50 % zu Buche und
bei -3,00 endet sie mit einem Wert von deutlich unter 50 %.
Von Interesse wäre jetzt die Summe dieser Prozentwerte. Rechnerisch machbar, aber etwas kompliziert. Die
mathematisch Versierten haben sicherlich längst erkannt, dass dieses Auf und Ab mit einer mathematischen
Funktion ausgedrückt werden müsste, für die gilt: Je mehr man sich von der y-Achse beiderseits entfernt, desto
kleiner werden die Ordinaten, die jeweiligen Bewertungs-Relevanz-Beträge entlang dieser Punkte auf der x-Achse,
bis sie sich schließlich beiderseits im Unendlichen der x-Achse als Asymptote annähern. Die x-Achse
repräsentiert demnach die Bewertungen (seitens einer Engine), die y-Achse die Bewertungs-Relevanz-Beträge.
An dieser Stelle wurde in der ersten Artikelversion eine Exponentialfunktion der allgemeinen Form
f(x) = a^(x*b) vorgeschlagen. Solche Exponentialfunktionen haben den Vorteil, dass immer der Punkt
P(0;1) erfüllt ist und sie sich im (positiven) Unendlichen der x-Achse annähern. Der Nachteil einer solchen
Funktion besteht allerdings darin, dass mit ihr nur 2 Punkte bestimmt werden können, der bereits erwähnte
Punkt P(0;1) und der Punkt P(e=0.75;0,5). Ein weiterer Definitionspunkt
P(e>0.75;r>0.75) wäre aber zwecks besserer Präzision dringend nötig, um
beispielsweise die höchsten TCEC-Engine-Bewertungen ohne Sieg und die damit korrespondierenden und weit über
0,75 liegenden Partieresultate erfassen zu können.
Lösung: 3 Gleichungen für 3 negative und 3 positive Sektoren entlang der x-Achse (x steht für Enginebewertung):
1. positiver und negativer Sektor:
lineare Gleichung mit 𝔻 {x | -e=0.75 ≤ x ≤ e=0.75}
2. positiver und negativer Sektor:
lineare Gleichung mit 𝔻 {x | -e>0.75 ≤ x ≤ -e=0.75 oder e=0.75 ≤ x
≤ e>0.75}
3. positiver Sektor und negativer Sektor:
Exponentialgleichung mit 𝔻 {x | -∞ < x ≤ -e>0.75 oder e>0.75 ≤ x <
∞}
Die Bewertungs-Relevanz-Funktionen stehen. Wie errechnet sich nun aber die wirklich relevante
Bewertungsdifferenz über eine bestimmte Strecke auf der x-Achse, zum Beispiel zwischen 2,00 und -3,00? Die
Bewertungs-Relevanz-Funktion ergibt ja nur den jeweiligen y-Wert eines speziellen Punkts entlang der x-Achse.
So genial wie einfach: per Integralfunktion. Alle Werte zwischen der x-Achse und der Funktionskurve summiert,
also der dortige Flächeninhalt zwischen der besten Bewertung (zum Beispiel 2,00) und der minderwertigen
Bewertung (zum Beispiel -3,00), stellen das bestimmte Integral – sprich die relevante Bewertungsdifferenz –
dieser Funktion dar.
Zur Berechnung des Integrals werden die Stammfunktionen der Bewertungs-Relevanz-Funktionen benötigt. Sie lauten:
1. positiver und negativer Sektor:
quadratische Gleichung mit 𝔻 {x | -e=0.75 ≤ x ≤ e=0.75}
2. positiver und negativer Sektor:
quadratische Gleichung mit 𝔻 {x | -e>0.75 ≤ x ≤ -e=0.75 oder
e=0.75 ≤ x ≤ e>0.75}
3. positiver Sektor:
Exponentialgleichung mit 𝔻 {x | e>0.75 ≤ x < ∞}
3. negativer Sektor:
Exponentialgleichung mit 𝔻 {x | -∞ < x ≤ -e>0.75}
Zu beachten ist bei obigen Gleichungen, dass das Computerprogramm Maxima statt der üblichen Schreibweise ln(x)
für den natürlichen Logarithmus die Schreibweise log(x) verwendet. Übrigens auch Javascript („Math.log()“).
Sollte man also die obigen Gleichungen mit „ln“ in derartigen Programmen verwenden, wäre „ln“ durch „log“ zu
ersetzen.
Wer mit dem obigen interaktiven Formular experimentiert, wird bald feststellen, dass sich bei extremen
Bewertungen die relevante Bewertungsdifferenz kaum mehr ändert, wenn diese Bewertungen noch extremer
eingegeben werden. Beispiel für Weiß:
hohe Bewertung = 15
suboptimale Bewertung = 0
e=0.75 = 2
e>0.75 = 3
probabilistisches Partieresultat bei e>0.75 = 0,85 (entspricht einem r>0.75 =
0,3)
Resultat der relevanten Bewertungsdifferenz = 2,64
Erhöht man die hohe Bewertung auf 18, beträgt die relevante Bewertungsdifferenz 2,65. Und eine hohe Bewertung
von 1000 führt wiederum zu einer relevanten Bewertungsdifferenz von 2,65. Die gleichen Resultate ergeben sich,
wenn die suboptimale Bewertung -15, -18 oder -1000 und die hohe Bewertung 0 beträgt.
Die relevanten Bewertungsdifferenzen werden im Formular auf 2 Dezimalstellen auf- oder abgerundet. Wenn man
nun diejenige hohe oder suboptimale Bewertung (künftig „Irrelevanz-Start-Bewertung“ genannt) berechnen möchte, ab
der jede weitere Erhöhung bzw. Reduzierung bis ins Unendliche maximal mit 50-prozentiger Wahrscheinlichkeit
irgendwann einmal zu einer Erhöhung der relevanten Bewertungsdifferenz (mit 2 Dezimalstellen) um 0,01 führen
wird, benötigt man folgende Formel:
aufgelöst nach Irrelevanz-Start-Bewertung und unter Berücksichtigung hoher und suboptimaler Resultate („±“):
Das Resultat mit den obigen Parametern beträgt ±15,477.
Die Formel zeigt, dass die Irrelevanz-Start-Bewertung von der 2. Bewertung (im obigen Fall 0) sowie von
e=0.75 (im obigen Fall 2) unabhängig ist.
Diese Formel gilt im Normalfall der Lokalisation der Irrelevanz-Start-Bewertung im 3. positiven und negativen
Sektor. Bei ungewöhnlichen Werten von e>0.75 und r>0.75 rutscht die
Irrelevanz-Start-Bewertung in den 2. positiven und negativen Sektor, sodass weit kompliziertere Formeln
benötigt werden. Dies passiert, wenn gilt:
Zum Beispiel, wenn e>0.75 < 0,978 und das probabilistische Partieresultat bei
e>0.75 = 0,99. Oder wenn e>0.75 < 0,0277 und das probabilistische
Partieresultat bei e>0.75 = 0,875. Höchst unrealistisch!
Realisiert sind die Bewertungs-Relevanz-Reduktion und all die in diesem Artikel erwähnten Schmankerl
(automatische Zug- und Stellungsbewertungssymbole sowie die probabilistischen Partieresultate)
im Programm ScpcPGN, kostenlos erhältlich auf dieser Webseite
und im Programm AquaPGN (neuestes Update 12. August 2020), kostenlos erhältlich auf dieser
Webseite.
Probabilistische Partieresultate
Warum ist die Rede von „probabilistischen“ Partieresultaten? Weil sie abgeleitet werden aus einer
Enginebewertung sowie weiteren Parametern und damit eine stochastische Aussage über den mutmaßlichen
durchschnittlichen Partieausgang beinhalten. Anders verhielt es sich im Rahmen der Besprechung der
TCEC-Resultate, bei denen nur von den „durchschnittlichen“ Partieresultaten die Rede war, weil dort
Partiematerial vorlag, anhand dessen faktische durchschnittliche Partieresultate berechnet werden konnten.
Das probabilistische Partieresultat wird hier immer aus der Sicht von Weiß dargestellt. Wenn Weiß gewinnt
lautet das Resultat 1-0, umgekehrt 0-1 und bei Remis ½-½. Nimmt man jeweils die führende Zahl, hat man das
hier verwendete probabilistisches Partieresultat.
Es lässt sich unmittelbar aus der Bewertungs-Relevanz ableiten:
bei positiven Bewertungen:
bei negativen Bewertungen:
Eine Enginebewertung von exakt 0,00 hat bei einer Bewertungs-Relevanz von 1,00 ein probabilistisches
Partieresultat von 0,50, also ein mutmaßliches Remis zur Folge. Ein probabilistisches Partieresultat von
annähernd 1,00 wäre ein fast sicherer Gewinn für Weiß, ein solches von annähernd 0,00 ein fast sicherer Gewinn
für Schwarz. 1,00 und 0,00 werden mathematisch niemals exakt erreicht. Und eine Enginebewertung von genau
e=0.75 führt zum Resultat 0,75, also einem Wert, der exakt zwischen Gewinn für Weiß und Remis
liegt. Die Resultate sind somit besser interpretierbar aus der Sicht von Weiß.
Klarstellung: das probabilistische Partieresultat ist keineswegs mit einer Gewinnwahrscheinlichkeit
gleichzusetzen.
Diesen Fehler machen viele. So schafft es das Programm Nibbler, das – in Wirklichkeit – probabilistische
Partieresultat mit der „Winrate“ (Gewinnquote) zu verwechseln, obwohl etwa in der Ausgangsstellung nach
1. e4 diese „Winrate“ 50 % überschreitet, während die tatsächliche Gewinnquote im Rahmen der
„WDL“-Anzeige nur bei bescheidenen 15 % liegt. Fällt dem Programmautor aber anscheinend nicht auf.
Es gilt lapidar:
Um der Chronistenpflicht nachzukommen auch noch die Partieresultat-Gleichungen:
1. positiver und negativer Sektor:
lineare Gleichung mit 𝔻 {x | -e=0.75 ≤ x ≤ e=0.75}
2. positiver Sektor:
lineare Gleichung mit 𝔻 {x | e=0.75 ≤ x ≤ e>0.75}
2. negativer Sektor:
lineare Gleichung mit 𝔻 {x | -e>0.75 ≤ x ≤ -e=0.75}
3. positiver Sektor:
Exponentialgleichung mit 𝔻 {x | e>0.75 ≤ x < ∞}
3. negativer Sektor:
Exponentialgleichung mit 𝔻 {x | -∞ < x ≤ -e>0.75}
Selbstredend finden sich die probabilistischen Partieresultate auch im interaktiven Formular.
Wie man es allerdings nicht machen sollte:
Sune Fischer und Pradu Kannan haben im Artikel
„Pawn Advantage, Win Percentage, and Elo“ („Bauernvorteil, Gewinnprozentsatz und Elo“) die
mathematische Relation zwischen „winning probability W and the pawn advantage P“ („Gewinnwahrscheinlichkeit W
und Bauernvorteil P“) untersucht.
Ob mit „winning probability“ wirklich die echte (niedrigere) Gewinnwahrscheinlichkeit oder vielleicht nur das
(höhere, da Remisen berücksichtigende) probabilistische Partieresultat gemeint ist, ist aus dem Artikel an
anderer Stelle zu erschließen:
„When applying the condition that the win probability is 0.5 if there is no pawn advantage …“
„Bei Anwendung der Bedingung, dass die Gewinnwahrscheinlichkeit 0,5 beträgt, wenn es keinen Bauernvorteil gibt
…“
Wenn „die Gewinnwahrscheinlichkeit 0,5 beträgt“ und der „Bauernvorteil“ gleich Null ist, müsste die
Verlustwahrscheinlichkeit zwangsläufig ebenfalls 0,5 betragen, um die Stellung als ausgeglichen beurteilen zu
können. Wo bleiben dann aber die Remisen, die sich bei einer Gewinnwahrscheinlichkeit von 50 % dieser
Marke annähern sollten, bei geringer Verlustwahrscheinlichkeit?! Es scheint, die Kenntnis der Autoren vom
Schachspiel ist durchaus begrenzt. Dieser Unsinn muss also dahingehend richtiggestellt werden, dass die
Autoren nicht die „Gewinnwahrscheinlichkeit“, sondern das im hiesigen Artikel besprochene probabilistische
Partieresultat, das Remisen und Verluste inkludiert, meinen. So geht die Rechnung auf: Ein probabilistisches
Partieresultat von 0,5 ist gleichbedeutend mit einer Bewertung – oder wenn man so will, einem „Bauernvorteil“
– von 0,00.
„Data was taken from a collection of 405,460 computer games in PGN format. Whenever exactly 5 plys in a game
had gone by without captures, the game result was accumulated twice in a table indexed by the material
configuration. … Only data pertaining to the material configuration was taken. This was considered reasonable
because the material configuration is the most important quantity that affects the result of a game.“
„Die Daten wurden einer Sammlung von 405.460 Computerspielen im PGN-Format entnommen. Wann immer genau 5
Halbzüge in einem Spiel ohne Schlagzüge verstrichen waren, wurde das Spielergebnis zweimal in einer Tabelle
akkumuliert, die nach der Materialkonfiguration indexiert war. … Es wurden nur Daten genommen, die sich auf
die Materialkonfiguration bezogen. Dies wurde als sinnvoll erachtet, da die Materialkonfiguration die
wichtigste Größe ist, die das Ergebnis eines Spiels beeinflusst.“
Ob mit „Materialkonfiguration“ die Materialbilanz als Differenz der beiderseitigen Figurenwerte gemeint ist,
ist zu vermuten, weil es an anderer Stelle heißt:
„For each material configuration, a pawn value was computed using conventional pawn-normalized material ratios
that are close to those used in strong chess programs (P=1, N=4, B=4.1, R=6, Q=12).“
„Für jede Materialkonfiguration wurde ein Bauernwert unter Verwendung konventioneller bauernnormalisierter
Materialkennzahlen berechnet, die den in starken Schachprogrammen verwendeten nahe kommen (B=1, S=4, L=4,1,
T=6, D=12).“
Abgesehen davon, dass diese Figurenwerte recht großzügig bemessen erscheinen, ist die Materialbilanz
verglichen mit den Bewertungen von Schachengines, die auf wesentlich diffizileren Kriterien und nicht zuletzt
auf beträchtlichen Suchtiefen gründen, höchst grobschlächtig. Aber all dies wäre noch zu verkraften, wäre die
von den Autoren vorgestellte Relation zwischen Gewinnwahrscheinlichkeit und Figurenbilanz stringent. Indes
taucht in ihrer ultimativen Formel ein ominöser Parameter „K“ auf:
Und diesen Parameter „K“ schätzen sie auf „4“ – Pi mal Daumen.
Löst man diese Formel nach K auf, erhält man:
Und setzt man in diese Formel beispielsweise die oben für die Siegerengines von TCEC 17 (LCZero) und 18
(Stockfish) ermittelten Ps und Ws ein, errechnen sich höchst unterschiedliche Ks zwischen 1,7 und 3,2.
Umgekehrt würde ein K von satten 4 etwa bei einem probabilistischen Partieresultat von 0,75 auf eine Bewertung von 1,91
hinauslaufen, ein laut obiger Tabellenwerte wenig realistisches Ergebnis. Bestätigt wird diese Einschätzung durch folgenden
Test: Man ermittle im Rahmen der Stockfish-WDL-Kalkulation die Bewertungen für verschiedene Halbzüge jeweils bei einem
probabilistischen Partieresultat von 0,75. Man erhält
im Halbzug 1 eine Bewertung von 1,50,
im Halbzug 10 eine Bewertung von 1,40,
im Halbzug 100 eine Bewertung von 1,15
und niemals eine Bewertung von 1,91.
Umgekehrt würde ein K von satten 4 etwa bei einem probabilistischen Partieresultat von 0,75 auf eine Bewertung
von 1,91 hinauslaufen, ein laut obiger Tabellenwerte wenig realistisches Ergebnis. Offensichtlich erweist es
sich als illusorisch, die gesuchte Relation mathematisch in eine einzige Sigmoid-Funktion mit nur einem
Parameter („K“) zwängen zu wollen. Das eingangs dieses Artikels vorgestellte Formular „Interaktive
Bewertungs-Relevanz-Reduktion“ arbeitet hingegen zur Berechnung der probabilistischen Partieresultate bei der Anwender-BRR mit
insgesamt 5 Formeln sowie 3 Parametern und bei der Stockfish-WDL mit sehr genauen Gewinn-, Remis- und
Verlustwahrscheinlichkeiten. Präzision anstatt Simplifikation!
Konkretisierung der Zugbewertungssektoren
Es mag abgeschmackt erscheinen, diese Zugbewertungssymbole im Folgenden quasi automatisiert aus
Enginebewertungen abzuleiten, da sie häufig anhand eines tieferen Verständnisses der Stellung
gewählt werden und sich nicht an Enginebewertungen orientieren. Beispiel: In einer Stellung gibt
es ganz offensichtlich nur einen einzigen vernünftigen Zug, den jedes Kind zu finden vermag, alle
anderen Züge wären miserabel. Diesem einen Zug nun das Qualitätsmerkmal „‼“ zu attestieren,
wäre mehr als dämlich. Oder etwas subtiler: In verlorener Position stellt ein objektiv schwacher,
also theoretisch widerlegbarer Zug eine Falle, die die Chance zur Wiederbelebung birgt. Ein
typischer „interessanter Zug (!?) – NAG $5“, der vielleicht nicht mit „?“ oder dergleichen
charakterisiert werden sollte. Gleichwohl kann es durchaus in vielen Fällen sinnvoll sein, aus
einem Vergleich der Enginebewertungen für zwei alternative Züge derartige Zugbewertungssymbole zu
bestimmen, vor allem dann, wenn keine Gelegenheit besteht, eine Stellung genauer unter die Lupe
zu nehmen, etwa bei automatischen Partieanalysen.
Der Intention von Großmeister Robert Hübner kann auf diese Weise nicht gefolgt werden. In der
englischsprachigen Wikipedia wird er wie folgt zitiert:
„German grandmaster Robert Hübner prefers an even more specific and restrained use of move evaluation symbols:
‚I have attached question marks to the moves which change a winning position into a drawn game, or a drawn
position into a losing one, according to my judgment; a move which changes a winning game into a losing one
deserves two question marks ...‘“
Unbestimmte Einschätzungen wie „winning position“, „drawn game“, „drawn position“ oder „losing one“ werden
durch die Ergänzung „according to my judgment“ nicht programmtauglicher.
Ausgangspunkt für die Bestimmung des Zugbewertungssymbols ist einmal natürlich der reale
ausgeführte Zug, zum anderen bei schlechten Zügen der beste Alternativzug, bei guten Zügen der
zweitbeste Alternativzug. Für diese beiden Züge ist – wie oben dargelegt – die relevanzreduzierte
Bewertungsdifferenz zu ermitteln und diese wiederum in das Zugbewertungssymbol zu übersetzen.
Dabei wird das bestimmte Integral des gesamten Bewertungsbereichs von -∞ bis +∞ in nicht nur 6, sondern 7 oder
gar 8 Sektoren gleicher Fläche unterteilt. Es gibt ja nicht nur die 6 Sektoren, für die ein
Zugbewertungssymbol zu vergeben ist, sondern auch den neutralen Sektor eines Zuges, der in etwa gleichwertig
mit dem besten oder zweitbesten Zug ist. Dieser neutrale Sektor geht zur Hälfte in die positive
Bewertungsrichtung und zur Hälfte in die negative. Man kann nun entweder einen neutralen Sektor mit derselben
Integralgröße wie die übrigen Sektoren verwenden oder einen doppelt so großen neutralen Sektor, der aus 2
Sektoren mit üblicher Integralgröße bestünde, einen für jede Bewertungsrichtung. Entweder wären es dann
insgesamt 7 oder aber 8 gleiche Integralsektoren (bei letzterer Variante 2 Integralsektoren für den neutralen
Sektor).
Wohlgemerkt: Wir sprechen hier von Integralsektoren bzw. ‑größen im Sinne von bestimmten
Integralen, also den relevanten Bewertungsdifferenzen, nicht zu verwechseln mit den absoluten
Differenzen zwischen 2 Zugbewertungen auf der x-Achse. Letztere fallen bei gegebener relevanter
Bewertungsdifferenz ganz unterschiedlich aus, je nachdem, an welcher Stelle sich die Zugbewertungen
auf der x-Achse befinden. Je weiter sich diese von der y-Achse, also von der Zugbewertung 0,00
entfernen, desto mehr wächst bei gegebener relevanter Bewertungsdifferenz ihre Distanz zueinander.
Mathematisch ist es sogar möglich, unter Heranziehung von e=0.75, e>0.75,
r>0.75 sowie einer gegebenen Zugbewertung denjenigen Grenzwert einer neuen Zugbewertung zu
berechnen, der sich im Fall eines Zuges mit irgendeinem speziellen Zugbewertungssymbol ergäbe. Schwer zu
verstehen, also ein Beispiel: Gegeben ist ein fehlerhafter Zug von Weiß mit einer Bewertung von -0,30 und ein
e=0.75 von 1,50, ein e>0.75 von 3,00 und ein probabilistisches Partieresultat bei
e>0.75 von 0,875. Ab welcher Bewertung würde sich ein alternativer guter Zug von Weiß gegenüber
diesem schwachen und zugleich nächstbesten Zug das Zugbewertungssymbol „‼“ verdienen? Je nach dem
angewendeten Schema wird die Antwort zum Beispiel 1,52 oder 1,62 lauten.
Natürlich kommen solche Zugbewertungssymbole nur zum Tragen, wenn überhaupt entsprechend hohe bestimmte
Integrale – pardon: relevante Bewertungsdifferenzen – zur Verfügung stehen. Ein korrekter Zug von Weiß mit
einer Enginebewertung von 100,00 wird sich kaum ein „!?“, „!“ oder gar „‼“ verdienen, selbst wenn der
zweitbeste Zug bei nur 10,00 liegt. Diese positive Bewertungsdifferenz ist schlicht irrelevant und daher wird
sie mit einer relevanten Bewertungsdifferenz von annähernd 0,00 quittiert. Eine gewonnene Stellung ist zumeist
mit den zweitbesten Zügen nicht mehr zu verderben. Das ist eben der Effekt der Bewertungs-Relevanz-Reduktion.
Wie groß sollen nun diese relevanten Bewertungsdifferenzen für die Zugbewertungssymbole
ausfallen? Man könnte – eventuell mit Ausnahme des neutralen Sektors – die gesamte
Integralfläche in gleiche Teile partitionieren oder die Unterteilung danach ausrichten, dass etwa
ein brillanter Zug bereits zu konstatieren ist, wenn er die Gewinn-Remis-Balance überschreitet
und der nächstbeste Zug mit der Bewertung 0,00 Vorlieb nehmen muss. Die erste Alternative geht
mit den Zugbewertungssymbolen eher sparsam um, die zweite ist generöser.
Hier beträgt die relevante Bewertungsdifferenz zwischen der Ausgangsbewertung und dem Grenzwert für das
Erreichen des Zugbewertungssymbols:
brillanter Zug (‼) – 1/14 + 1/7 + 1/7 = 5/14 des Gesamtintegrals in Richtung auf eine bessere
Bewertung,
beeindruckender Zug (!) – 1/14 + 1/7 = 3/14 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
ansprechender Zug (!?) – 1/14 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
fragwürdiger Zug (?!) – 1/14 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung,
schwacher Zug (?) – 1/14 + 1/7 = 3/14 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung und
miserabler Zug (??) – 1/14 + 1/7 + 1/7 = 5/14 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung.
Daraus lassen sich nun für Weiß und Schwarz die Grenzwerte der Zugbewertungen errechnen mit Formeln, die hier
nicht wiedergegeben werden, jedoch in einem Browser-Inspektor per Javascript-Code zur Verfügung stehen.
Generell werden hier Zugbewertungssymbole generöser vergeben, als im nachfolgenden Schema „1/8 1/8 1/8 1/8 1/8
1/8 1/8 1/8“.
Hier beträgt die relevante Bewertungsdifferenz zwischen der Ausgangsbewertung und dem Grenzwert für das
Erreichen des Zugbewertungssymbols:
brillanter Zug (‼) – 1/8 + 1/8 + 1/8 = 3/8 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
beeindruckender Zug (!) – 1/8 + 1/8 = 1/4 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
ansprechender Zug (!?) – 1/8 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
fragwürdiger Zug (?!) – 1/8 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung,
schwacher Zug (?) – 1/8 + 1/8 = 1/4 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung und
miserabler Zug (??) – 1/8 + 1/8 + 1/8 = 3/8 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung.
Generell werden hier Zugbewertungssymbole weniger generös vergeben, als im vorhergehenden Schema „1/7 1/7 1/7
1/14 1/14 1/7 1/7 1/7“.
Im interaktiven Formular werden die Grenzwerte zwischen den Symbolen in beiden Schema-Tabellen aufgeführt,
sofern es die Algebra hergibt, sofern also der nach der Ausgangsbewertung noch verbleibende Spielraum an
relevanter Bewertungsdifferenz eine Prämierung erlaubt. Falls nicht, wird die Zeichenfolge „-----“ ausgegeben.
Optimumquote:
In den Resultaten unter dem Formular „Interaktive Bewertungs-Relevanz-Reduktion“ findet sich auch die
„Optimumquote der suboptimalen Zugbewertung“. Diese beinhaltet den präzisen numerischen Ausdruck für das
Zugbewertungssymbol der suboptimalen Zugbewertung (Nichts, ?!, ?, ??).
Das Gesamtintegral ist das bestimmte Integral über die gesamte x-Achse mit den Bewertungen von -∞ bis +∞.
Die Optimumquote liegt also regelmäßig unter 100 % und erreicht nur ausnahmsweise bei 2 Zugbewertungen ohne relevante
Bewertungsdifferenz das Optimum von 100 %.
Konkretisierung der Stellungsbewertungssektoren
Mit den erarbeiteten mathematischen Grundlagen lassen sich nun die eingangs des Artikels
angeführten 9 Bewertungssektoren näher beschreiben. Jeweils 4 Bewertungssektoren liegen im
positiven und negativen Bereich. Die ausgeglichene Stellung gilt bei minimalen Vorteilen für Weiß
und Schwarz um den Wert Null herum. Der Sektor des minimalen Vorteils jeweils für Weiß oder
Schwarz beträgt 50 % des gesamten ausgeglichenen Sektors.
9 Stellungsbewertungssektoren mit Grenzwert-Justierung an den probabilistischen Partieresultaten:
Hier erfolgt eine Annahme, die zwar nicht zwingend, jedoch sehr plausibel ist: Das Ende des Sektors
„moderater Vorteil für Weiß“ und der Beginn des Sektors „klarer Vorteil für Weiß“ sollte exakt mit der
Bewertung e=0.75 zusammenfallen, für die das probabilistisches Partieresultat 0.75 beträgt.
Umgekehrt für Schwarz: Das Ende des Sektors „moderater Vorteil für Schwarz“ und der Beginn des Sektors „klarer
Vorteil für Schwarz“ sollte exakt mit der Bewertung -e=0.75 zusammenfallen, für die die das
probabilistische Partieresultat aus Sicht von Weiß 0.25 beträgt. Mit dieser Grundannahme geht einher, dass
leichter oder moderater Vorteil probabilistisch für eine Tendenz zum Remis und klarer oder extremer Vorteil
probabilistisch für eine Tendenz zum Gewinn steht.
Weitere Annahme: Das Ende des Sektors „klarer Vorteil für Weiß“ und der Beginn des Sektors „extremer Vorteil
für Weiß“ sollte exakt mit der Bewertung e>0.75 zusammenfallen. Umgekehrt für Schwarz: Das Ende
des Sektors „klarer Vorteil für Schwarz“ und der Beginn des Sektors „extremer Vorteil für Schwarz“ sollte
exakt mit der Bewertung -e>0.75 zusammenfallen.
Es wäre wohl zweckmäßig, bei Verwendung dieses Schemas das probabilistische Partieresultat bei
e>0.75 auf 0,875 zu justieren, um so exakt in der Mitte zwischen 0.75 und 1.00 zu liegen.
Nun wieder etwas Mathematik:
Die Aufgabe besteht nun darin, diese einzelnen Vorteilssektoren zu quantifizieren. Würde man etwa einen
Weiß-Zug mit einem überwältigenden Vorteil von 100,00 vergleichen mit einem Patzerzug, der zum Remis (0,00)
führt, wäre die absolute Bewertungsdifferenz 100,00, die relevante Bewertungsdifferenz jedoch nur das
praktisch komplette bestimmte Integral aller 3 Funktionen im ausschließlich positiven Bereich der x-Achse
(welches wiederum identisch ist mit dem bestimmten Integral im ausschließlich negativen Bereich der x-Achse).
Die mathematische Formel für das komplette Integral von -∞ bis +∞ lautet übrigens:
Nächstes Gedankenexperiment: Würde man jetzt einen Weiß-Zug mit einem Vorteil von e=0.75 exakt an
der Grenze zwischen moderatem und klarem Vorteil vergleichen mit einem Patzerzug, der zum Remis (0,00) führt,
wäre die absolute Bewertungsdifferenz e=0.75, die relevante Bewertungsdifferenz jedoch nur das
komplette bestimmte Integral im 1. positiven Sektor der x-Achse. Als mathematische Formel: 0,75 *
e=0.75.
Wenn man sich nun daranmacht, die bestimmten Integrale zwischen x = 0 und Beginn des leichten
Vorteils, zwischen Letzterem und Beginn des moderaten Vorteils und wiederum zwischen Letzterem
und Beginn des klaren Vorteils jeweils für Weiß/Schwarz zu quantifizieren, müsste man den Integralwert von
0,75 * e=0.75 in 3 Sektoren unterteilen:
20 % = 0,15 * e=0.75 für den Sektor ausgeglichene Stellung ab 0,00,
40 % = 0,30 * e=0.75 für den Sektor leichter Vorteil für Weiß/Schwarz und
40 % = 0,30 * e=0.75 für den Sektor moderater Vorteil für Weiß/Schwarz.
Daraus lassen sich nun für Weiß und Schwarz die Grenzwerte der Stellungsbewertungen errechnen mit Formeln, die
hier nicht wiedergegeben werden, jedoch in einem Browser-Inspektor per Javascript-Code zur Verfügung stehen.
7 Stellungsbewertungssektoren mit Grenzwert-Justierung an den probabilistischen Partieresultaten:
„Extremer Vorteil für Weiß (+--) oder Schwarz (-++) – NAG $20/$21“ mag nicht jedermanns Sache sein. Für diese
Zeitgenossen nun eine Wiederholung des vorherigen Vorschlags, diesmal aber mit nur 7 Bewertungssektoren ohne
Extremes.
Hier fällt nun das Ende des Sektors „leichter Vorteil für Weiß“ und der Beginn des Sektors „moderater
Vorteil für Weiß“ exakt mit e=0.75, für das das probabilistische Partieresultat 0,75 beträgt, und
das Ende des Sektors „moderater Vorteil für Weiß“ und der Beginn des Sektors „klarer Vorteil für Weiß“ exakt
mit e>0.75 zusammen. Umgekehrt für Schwarz: Das Ende des Sektors „leichter Vorteil für Schwarz“
und der Beginn des Sektors „moderater Vorteil für Schwarz“ fällt exakt mit der Bewertung -e=0.75
zusammen, für das das probabilistische Partieresultat aus Sicht von Weiß 0,25 beträgt, und das Ende des
Sektors „moderater Vorteil für Schwarz“ und der Beginn des Sektors „klarer Vorteil für Schwarz“ fällt exakt
mit der Bewertung -e>0.75 zusammen. Mit dieser Grundannahme geht einher, dass leichter oder
moderater Vorteil probabilistisch für eine Tendenz zum Remis und klarer Vorteil probabilistisch für eine
Tendenz zum Gewinn steht.
Es wäre wohl wiederum zweckmäßig, bei Verwendung dieses Schemas das probabilistische Partieresultat bei
>0.75 auf 0,875 zu justieren, um so exakt in der Mitte zwischen 0,75 und 1,00 zu liegen.
Wenn man sich hier daranmacht, die bestimmten Integrale zwischen x = 0 und Beginn des leichten Vorteils sowie
zwischen Letzterem und Beginn des moderaten Vorteils jeweils für Weiß/Schwarz zu quantifizieren, müsste man
den Integralwert von 0,75 * e=0.75 in 2 Sektoren unterteilen:
1/3 = 0,25 * e=0.75 für den Sektor ausgeglichene Stellung ab 0,00 und
2/3 = 0,50 * e=0.75 für den Sektor leichter Vorteil für Weiß/Schwarz.
9 Stellungsbewertungssektoren mit Grenzwert-Justierung an identischen Bewertungssektoren
1/9 1/9 1/9 1/9 1/18 1/18 1/9 1/9 1/9 1/9 des Gesamtintegrals:
Sollte man die obige Leitlinie der Grenzwert-Justierung an probabilistischen Partieresultaten verwerfen und
wiederum 4,5 positive bzw. negative Stellungsbewertungssektoren diesmal jedoch gleicher Quantität präferieren,
würden die Bewertungssektoren als Anteile des Gesamtintegrals wie folgt ausfallen:
1/18 für den Sektor ausgeglichene Stellung ab 0,00,
1/9 für den Sektor leichter Vorteil für Weiß/Schwarz,
1/9 für den Sektor moderater Vorteil für Weiß/Schwarz,
1/9 für den Sektor klarer Vorteil für Weiß/Schwarz und
1/9 für den Sektor extremer Vorteil für Weiß/Schwarz.
7 Stellungsbewertungssektoren mit Grenzwert-Justierung an identischen Bewertungssektoren
1/7 1/7 1/7 1/14 1/14 1/7 1/7 1/7 des Gesamtintegrals:
Sollte man die obige Leitlinie der Grenzwert-Justierung an probabilistischen Partieresultaten verwerfen und
auch kein Freund von 4,5 positiven bzw. negativen Stellungsbewertungssektoren mit Extrema sein, verbleibt
dieses Schema mit Sektoren gleicher Quantität:
1/14 für den Sektor ausgeglichene Stellung ab 0,00,
1/7 für den Sektor leichter Vorteil für Weiß/Schwarz,
1/7 für den Sektor moderater Vorteil für Weiß/Schwarz und
1/7 für den Sektor klarer Vorteil für Weiß/Schwarz.
Im interaktiven Formular werden die Stellungsbewertungssymbole und die Grenzwerte zwischen den
Symbolen aufgeführt, letztere jeweils in einer eigenen Zeile für jedes der 4 Schemata.
Am Rande noch ein Tipp: Sofern der geneigte Leser die Stellungsbewertungssymbole zu verwenden
trachten, ihrer indes nicht habhaft werden sollte, könnte folgender Link auf den
AqChessUnicode-Font hilfreich sein. Dieser liegt übrigens auch der Schach-GUI
Aquarium bei.
Eine Bewertung mit einem durchschnittlichem Partieresultat von 0,75 in Höhe von circa 1,50 gilt für weitgehend
optimales Schachspiel, wie es die besten Schachengines in Partien mit ihresgleichen heutzutage praktizieren,
nicht jedoch zwangsläufig auch für Schachspieler, nicht einmal für Großmeister, die auch viel zu häufig
Bockmist spielen und daher theoretisch mit einem deutlich höheren e=0.75 Vorlieb nehmen sollten.
Grund dafür wäre ihre Fehlerneigung, die sie bereits gewonnen geglaubte Partien noch remisieren oder gar
verlustig gehen lassen. Ein Einwand hiergegen ist aber der Umstand, dass diese Maßzahl durch die Patzer ihrer
Gegner der Gattung Homo sapiens wieder gedrückt würde, weil deren Fehlgriffe häufiger zu Siege führen, die
nicht unbedingt zwangsläufig waren und für gute Schachengines solche gedrückten Stellungen eventuell noch
verteidigungsfähig gewesen wären. Auf diese Weise könnten viele eigentliche Remisen mit vorübergehend hohen
Bewertungen statistisch in die Anzahl der Siege eingehen, ohne das e=0.75 in die Höhe zu treiben
bzw. umgekehrt es sogar zu minimieren, da ja mit jedem zusätzlichen Sieg eine niedrigere Bewertung in der
Warteliste zum neuen e=0.75 aufsteigt. Insofern würde eine suboptimale Schachkunst durch das
suboptimale gegnerische Spiel aufgewertet werden. Welcher Effekt für das e=0.75 nun beim Schach
spielenden Homo sapiens mehr zum Tragen kommt, ist ungewiss.
Hätten Schachgroßmeister noch den Mumm, sich den besten Schachengines stellen, ließe sich ihr wahres
e=0.75 womöglich auch nicht bestimmen. Denn wann würden sie in solchen Partien schon in deutlichen
Vorteil kommen oder gar Gewinne davontragen? Vielleicht in extremen Vorgabepartien? Mit ihnen ließe sich
austesten, wie viele Bauern dem Computergegner in der Anfangsstellung weggenommen werden müssten, um dem
ungeschoren davongekommenen Meister Gewinne und Remisen in nennenswertem Umfang zuzuschanzen. Oder wie eine
vorgegebene Eröffnung konstruiert werden müsste, um die Schachengine in eine fragwürdige Stellung zu
entlassen. So ließe sich dann doch noch das großmeisterliche e=0.75 bestimmen. Da die
zeitgenössischen Schachkoryphäen solchen Vergleichen jedoch schon seit langem mehr und mehr aus dem Wege
gehen, um Blamagen zu entgehen, stellt sich eine solche Frage kaum mehr.
Da nun einmal derartiges Partiematerial aus Begegnungen zwischen Mensch und Maschine kaum zur
Verfügung steht, verbleibt gegenwärtig und vermutlich auch auf ewige Zeiten nur die halbgare
Möglichkeit, Partien zwischen Menschen auszuwerten. Wobei man immer im Auge behalten sollte, dass
die daraus resultierenden Ergebnisse durch die zweifelhafte Spielweise des Gegners verwässert
wurden. Schwamm drüber.
Gesagt, getan per Analyse von 144 Weltmeisterschaftskämpfen zwischen Karpov und Kasparov in den
Jahren 1984 bis 1990. Die allerletzte Partie bleibt unberücksichtigt, da Kasparov dort bei
deutlichem Vorteil mit Karpov ein Remis vereinbarte, obwohl der Gewinn – wie es im Schachslang
heißt – nur eine Frage der Technik war. Ihm genügte halt ein Remis zum Gewinn des
Weltmeisterschaftstitels. Alle Partien wurden von Stockfish bei kurzer Bedenkzeit mit einer
Tiefe von durchschnittlich knapp über 20 Halbzügen oberflächlich analysiert.
Um es kurz zu machen: Kasparov gewann 21 Mal, Karpov 19 Mal. Die 21 bzw. 19 höchsten Bewertungen
in Remispartien lagen bei Kasparov zwischen 3,67 und 1,00, bei Karpov zwischen 7,80 und 1,04. Wer
mag, kann daraus eine Gewinn-Remis-Balance von mindestens 1,00 ablesen …
In 5 Partien wurde trotz einer positiven Bewertung von mindestens 1,26 die Partie noch in den Sand gesetzt.
Kasparov vergeigte die 18. Partie im WM-Kampf 1986 sogar trotz eines deutlichen 3,67!
Exkurs: „Remisbreite“
Der immer wieder herumgeisternde Begriff „Remisbreite“ soll hiermit ein wenig unter die kritische
Lupe genommen werden. Denn mit ihm wird ja suggeriert, dass er mit dem Bewertungssektor
„ausgeglichene Stellung oder Remis (=) – NAG $10“ zusammenfallen würde. Zum Leidwesen des Lesers
tritt jedoch ein reichlich verschiedenartiges Verständnis dieses Begriffs zu Tage.
„Man glaubt also bei Houdini, ein (gewonnenes) Endspiel sei noch in der Remisbreite, wenn er
+0.80 anzeigt ...“
(Schachfeld).
Damit wird suggeriert, anhand einer Stellungsbewertung einer Schachengine im niedrigen Bereich
ließe sich eine Aussage über den Remisausgang der Partie treffen. Nun fängt ja jeder Partiegewinn
mal klein an, nämlich mit einem minimalen Vorteil, selbst vielleicht schon nach dem ersten Zug.
Und wenn man dann nach einer solchermaßen gewonnenen Partie die Schachengine auf die ersten Züge
ansetzt und sich von ihr überzeugen lässt, dass die Partie keineswegs mit einem Anzugsvorteil von
deutlich mehr als +0,80 startete, wird man vielleicht ins Grübeln kommen. Und der Konter per
späterer Fehlzüge, die das Desaster ausgelöst haben sollen, verfängt da wenig, wenn der Patzer z.
B. Stockfish heißt und eine ELO von annähernd 3500 hat. Man führe sich die TCEC-Verlustpartien
von Stockfish zu Gemüte. Dort wird man jede Menge von Partien finden, die für diese Engine trotz
einer negativen „Remisbreite“ von circa -0,76 oder -0,80 im Desaster endeten, obwohl sie ja nicht
gerade dafür bekannt ist, mit ihren Stellungen innerhalb der angeblichen „Remisbreite“ fahrlässig
umzugehen. Wer sonst außer Stockfish sollte in der Lage sein, solche Stellungen Remis zu halten?
2. Variante:
„Wenn während einer Partie keine Seite gewinnbringenden Vorteil hat, dann sagt man auch, „die
Partie befindet sich innerhalb der Remisbreite“.“ (Wikipedia).
„Remisbreite
Spielraum für eine Stellungsbewertung, die bei bestem Spiel auf beiden Seiten letztendlich zum
Remis führen wird. Im Beispiel steht Weiß schlechter, befindet sich allerdings noch in der
Remisbreite, da er mit seinem König die Umwandlung des Bauern verhindern kann. Käme er aber auf
die Idee 1.Kh1 zu spielen, z.B. in der Hoffnung auf 1...f2 und Patt, hätte er die Remisbreite
verlassen und Schwarz könnte nun bei bestem Spiel den Sieg erzwingen, und zwar durch 1...Kg4 samt
Gewinn der Opposition. Ob sich die Grundstellung des Schachspiels in der Remisbreite befindet,
oder ob vielleicht Weiß den Sieg erzwingen könnte, ist zu komplex, um beantwortet werden zu
können.“ (www.schwachspieler.de).
Hier wird mit „Remisbreite“ ein ominöser „Spielraum für eine Stellungsbewertung“ in Verbindung
gebracht bei einem erzwungenen Remis durch bestimmte Züge bei bestem Spiel, das sich anscheinend
beweisen lässt. Im Zusammenhang mit einem nachweislichen Remis jedoch das Wort „Breite“ auch nur
in den Mund zu nehmen, zeugt von verquerer Logik. Remis ist 0,00, nichts anderes. In diesem Fall
müsste ein Schachprogramm nicht nur eine Stellungsbewertung von 0,00, sondern auch eine oder
mehrere Remisvarianten abliefern, die nach den Denkgesetzen oder nach Endspiel-Tablebases
zwingend sind. Sowas geht nur in speziellen Stellungen, insbesondere in allen maximal
7-Steiner-Stellungen, die komplett ausanalysiert sind, alle anderen sind eben so komplex, dass
man sich mit einer Stellungsbewertung zwischen Null und Matt begnügen muss, ohne daraus
irgendwelche zwingenden Schlüsse auf den Partieausgang ziehen zu können. Und wenn ein
Schachprogramm in einer wirklichen Remisstellung eine von 0,00 abweichende Larifari-Bewertung
zeigen würde, hätte das Programm ein Code-Problem und würde dies nicht den alogischen Begriff
„Remisbreite“ rechtfertigen.
Wäre ein Remis wie üblich nicht nachweisbar, sollte man schon gleich gar nicht mit dem Begriff
„Remisbreite“ eine angebliche Kenntnis vorgaukeln, die man angesichts der Komplexität einer
Schachpartie gar nicht haben kann. Dann regiert hinsichtlich aller Erwägungen über den
Partieausgang nur noch die Statistik/Probabilistik (das eigentliche Thema dieses Artikels) und
Eröffnungssammlungen mit Gewinn-, Remis- und Verlustquoten ein und derselben Stellung können
davon ein Lied singen.
Kontakt: mail@konrod.info
Ende Gelände ♦ Aus die Maus ♦ Schicht im Schacht ♦ Klappe zu - Affe tot
So long ♦ See You Later, Alligator - In A While, Crocodile ♦ Over And Out