OneFormula

stats

The making of

Criteria

Techniek

Top 50

Dit is de zoveelste "Best-of-all-time" lijst van Formule 1 coureurs.

Waarom? Dat komt hierna, eerst maar eens de uitkomst van deze Top 50.

Verschil van mening zal er altijd zijn. Die verschillen gaan over de gebruikte criteria.

De coureurs zelf hebben andere favorieten dan de fans. Alonso scoort hoog bij deze groep.
Bernie Ecclestone -toch niet de eerste de beste- zet Prost bovenaan zijn lijst en daar zal hij zijn redenen voor hebben.
Ik zelf had gehoopt, dat Clark in deze Top 50 bovenaan zou staan, maar niet dus.

Veranderingen

Bovenaan staan Fangio en Clark mijlenver boven de rest. Daar komt voorlopig geen verandering in.

Daaronder zijn de verschillen steeds kleiner en wordt er vaker "ingehaald". Ook nu is het duidelijk, dat wagen en team de beslissende factoren zijn:

Verstappen haalt sinds 2020 met een steeds betere wagen veel concurrenten in, maar zijn Red Bull stokt in 2024 en dus ook zijn Brazil-style opmars naar de Top 10.
Als Mercedes in 2022 de weg kwijt raakt, duikelt Hamilton van zijn beste vijfde plaats in 2020 naar plaats negen in de Top 10.
McLaren krijgt zijn zaken sinds 2023 steeds beter voor elkaar; Norris en Piastri komen steeds dichter bij de Top 50. Piastri is de snelste stijger van de twee.

Posities in de Top 50 veranderen ook door in pre-pensioen tijd voor een team van de tweede categorie te gaan rijden:

Vettel verlaat Ferrari in 2019 en rijdt zichzelf met Aston Martin de Top 10 uit.
Alonso verlaat Ferrari in 2014 en sukkelt van zijn beste 12e plek in 2006 steeds verder richting middenmoot.

Ook de scores van niet actieve coureurs veranderen elk jaar. Dat heeft te maken met het feit dat het gemiddelde niveau van concurrentie in de Formule 1 elk jaar verandert. Verderop leg ik dat uit, dat is zwaardere kost.

The making of

Waarom dus weer zo'n "Best-of-all-time?

Omdat de meeste lijsten criteria gebruiken, die mijns inziens niet relevant zijn en vergeten criteria mee te nemen, die dat wel zijn.

Criteria

Hamilton: kampioen van de
lijstjes met absolute getallen

Deze Top 50 gebruikt de volgende criteria als uitgangspunt:

Wins
Poles
Podiums*

*Aleen tweede en derde plaats

Er worden wegingsfactoren toegepast:

Wins factor 3
Poles factor 2
Podiums* factor 1

Wins, poles en podiums worden niet als absolute getallen weergegeven, maar als percentages van het aantal gereden Grands Prix. Het is per slot van rekening een "Best-of-all-time" en geen "Longest-of-all-time" Top 50.

Hieronder het verschil in klassering.

Verschil in getallen en percentages

Techniek

Technische DNF's mogen niet van invloed zijn op een Top 50 van coureurs.

Een tweede karakteristiek van deze Top 50 zijn technische DNF's*. Met "technisch" bedoelen we wagen of -team gerelateerde DNF's. Haalt een coureur om die redenen de finish niet, dan telt die race niet mee voor de ranking.

In een Top 50 van coureurs is dit relevant. Jochen Rindt -onbetwist kampioen van DNF's- haalde in 53% van zijn races de finish niet vanwege technische mankementen. Dat krikt zijn percentages en positie in de Top 50 aanzienlijk op.

*Did not finish

In de 60-er jaren haalde soms 50% van alle wagens de finish niet vanwege technische mankementen.

Dit is terecht, want het gaat hier om een Top 50 van coureurs en niet van constructeurs.

De percentages worden dus berekend over het totaal aantal GP's minus de races waarin de coureur om technische reden de finish niet heeft gehaald.

Klassering zonder en met
inachtneming van technische DNF's

Daarentegen tellen races, waarin de finish niet wordt gehaald vanwege spins, botsingen en andere coureur-gerelateerde issues uiteraard wel mee.

Concurrentie

Appels met appels vergelijken

Hoe gaan we "concurrentie" gebruiken als criterium voor een Top 50? Als een coureur tijdens zijn carrière meer concurrentie heeft ondervonden dan anderen, dan moet dat op een of andere manier verwerkt worden in zij scores. Hoe ik dat doe, is zwaardere kost en staat in de blokken met blauwe tekst.

Dit is wel het criterium dat deze Top 50 uniek maakt. Geen enkele ranglijst houdt rekening met de verschillen in concurrentie in 75 jaar Formule 1. Het wordt vaak gezegd:

"You can't compare the first decades of Formula 1 with today: competition in the 50's and 60's was much less then"

En toch is dat niets anders dan een hardnekkige mythe. Die snel ontzenuwt wordt, als we het niveau van concurrentie in de zeven decennia van F1 gaan meten:

Concurrentieniveau per decennium

Het zijn de dominanties van Ferrari, Mercedes en Red Bull die met veel opeenvolgende titels het concurrentieniveau van de laatste drie decennia naar beneden trekken, ver onder dat van de 50-er en 60-er jaren.

Wereldkampioenen 2000-2024

C-levels

De blokken met blauwe tekst tot aan "De formule" zijn berekeningen, het is zoals gezegd zwaardere kost. Je kunt ze overslaan of niet.

Hoe kun je het niveau van concurrentie in Formule 1 meten? De grenzen hiervoor worden bepaald door de beschikbaarheid van betrouwbare data en criteria die over de gehele periode constant zijn. Daarnaast mag het criterium geen dominante invloed hebben op de ranking van de Top 50.

Dit is het onderdeel waar ik een paar jaar mee geworsteld heb. En ik niet alleen. Ik heb bijna alle auteurs van de in de Referenties genoemde artikelen benaderd. Daarnaast heb ik een aantal wiskundeleraren en experts op het gebied van statistieken aan tafel gehad.

Wat ga je meten? Talloze opties zijn er. Twee voorbeelden:

Behaalde punten per seizoen. Dan moet je een uniform puntensysteem hebben voor alle 75 jaar en niet zes verschillende zoals FIA gehanteerd heeft.
Tijdsverschillen aan de finish. Dat lijkt ondoenlijk omdat er te veel verschillende circuits zijn en er te veel omstandigheden zijn waar je rekening mee moet houden.
Verschillen tussen de drie beste kwalificatietijden. Maar dat zegt niet veel over de strijdlust van een coureur
Het gemiddelde aantal wisselingen van leiders in de wedstrijd. Onbruikbaar vanwege pitstops.
Verschil tussen start- en finish posities.

En zo waren er nog een heleboel suggesties. Uiteindelijk heb ik gekozen voor punten per seizoen, maar dan wel gemiddelde punten per race minus technische DNF's. in een seizoen.

Daarvoor heb ik een nieuw uniform puntensysteem ontworpen voor race en kwalificatie.

Uniform puntensysteem 1950-2024

Dit puntensysteem heb ik toegepast . . .

. . . op de scores van de eerste zes coureurs in elk seizoen van 1950-2024. Ook hier waren er weer talloze opties. Ik heb gekozen scores van de eerste zes coureurs. Over de hele periode van 1950-2024 bleken dat ook bijna alle coureurs te zijn, die in de Top 50 terecht zijn gekomen.

Overigens heeft de ene of andere optie nauwelijks een effect van betekenis op de ranking in de Top 50.

Twee voorbeelden van de resultaten met het uniforme puntensysteem

In de volgende stap gaan we . . . .

. . . een statistische tool loslaten om te meten wat de spreiding van de getallen is. Daarmee geef je ook het niveau van concurrentie aan. Ook hier weer talloze opties. Ik noem er slechts een paar:

De Gini coefficient
Herfindahl-Hirschman-index
Absolute gemiddelde deviatie
Standaard deviatie
Het aantal punten van de winnaar ten opzichte van het totaal aantal punten van de eerste zes.
Het verschil tussen de nummers een en twee
Het verschil tussen de nummers een en twee en nummer een en drie
etc. etc.

Optie 7 heb ik toegevoegd omdat optie 6 het nadeel heeft, dat je het verschil meet tussen twee teamgenoten. Bij Senna en Prost maakt dat niet uit, maar bij Schumacher en Barrichello (of andere secondanten) en Papaya varianten meet je onbetrouwbare resultaten vanwege teamorders.

Een paar van de deze opties waren niet geschikt, omdat ze een te grote impact op de ranking in de Top 50 hadden.

Na toepassen van optie 1,3,4 en 5 heb ik gekozen voor de standard deviatie. Ook hier geldt, dat het verschil tussen de diverse opties verwaarloosbaar is.

De uitkomst wordt geïnverteerd door. . .

. . . 1 te delen door de standaard deviatie. Immers, hoe hoger de standaard deviatie, hoe lager het niveau van concurrentie. De uitkomst noemen we "C-level".

Wat doen we met deze C-levels? Het resultaat van de

De verschillen tussen de diverse C-levels blijven behoorlijk groot, waardoor de impact op op de ranking

Als het gemiddelde van C-levels binnen de carrièrejaren van een coureur hoger is dan het gemiddelde van alle C-levels van 1950-2024, is de C-factor hoger dan 1. Hetzelfde geldt voor het tegenovergestelde.

De score van een coureur wordt aangepast door de persoonlijke C-factor van die coureur.

Voorbeelden van hoge en lage C-factoren zijn:

Active drivers in red (2024)

If you are interested in the calculation methods for the C-levels, please go to the full version of this blog. If not, continue reading here.

De formule

This brings us to the final formula:

ds = (3wi + 2pp + 1pd) x cf

ds = driver score

wi = % wins

pp = % pole positions

pd = % podiums

cf = c-factor

Voorbeelden

* Car- or team related

** Conversion to points (x 1000)

Standings as per 2024

* Car- or team related

** Conversion to points (x 1000)

You may also be interested in a format to make F1 races attractive again: OneFormula

Referenties

formula1points.com offers an interesting approach, whereby visitors can select from a number of criteria and their weighting factors. Based on the selection, the site produces a ranking. Using the same criteria and weighting factors, the ranking appears similar to the OneFormula ranking
Stats F1 is used as the preferred database for the OneFormula model.
Bell, A., Smith, J., Sabel, C. E., and Jones, K. (2016). Formula for success: multilevel modeling of formula one driver and constructor performance, 1950–2014. Journal ofQuantitative Analysis in Sports, 12(2):99–112.
Bol, R. (2020). How to win in formula one: is it the driver or the car? The Correspondent.
Budzinski, Oliver and Feddersen, Arne, Measuring Competitive Balance in Formula One Racing (March 16, 2019). Available at SSRN: https://ssrn.com/abstract=3357687 or http://dx.doi.org/10.2139/ssrn.3357687
Burkner, P.-C. (2017). brms: An R package for bayesian multilevel models using Stan. Journal of statistical software, 80(1):1–28.
Eichenberger, R. and Stadelmann, D. (2009). Who is the best formula 1 driver? An economic approach to evaluating talent. Economic Analysis & Policy, 39(3).
Elo, A. (1978). The rating of chess players, past and present. Arco, New York.
Henderson, D. A., Kirrane, L. J., et al. (2018). A comparison of truncated and time-weighted Plackett–Luce models for probabilistic forecasting of formula one results. Bayesian Analysis, 13(2):335–358.
Ingram, M. (2021). A ﬁrst model to rate formula 1 drivers. https://martiningram.github.io/f1-model/ (accessed March 2022).
Phillips, A. J. (2014). Uncovering formula one driver performances from 1950 to 2013 by adjusting for team and competition effects. Journal of Quantitative Analysis in Sports,10(2):261–278.
Van Kesteren, E.-J. and Bergkamp, T. L. G. (2022). Code Repository: Bayesian Analysis ofFormula One Race Results.