Data: ¿Quién ganará el mundial? @ Matematicamente posible
Artículo especial colaborado con Juan Carlos Saravia, fundador de Matemáticamente Posible y autor del libro con el mismo título
Conocí a Juan Carlos hace más de año y medio cuando lancé un podcast piloto y conversamos sobre la data en el fútbol. Había leído su blog sobre Data Analytics en el fútbol, Matemáticamente Posible, en varias ocasiones previa a la entrevista y me interesó mucho su historia: es psicólogo, hizo carrera en Data Analytics y se volvió fanático y experto de los datos y el fútbol.
Desde ese momento no hemos perdido contacto y, ahora, próximo a lanzar su primer libro y con uno de los podcast de deporte en Perú más relevantes de las últimas semanas, volvemos a colaborar para un tema que le tiene que interesar a todos: ¿Quién ganará el mundial?... Bueno, lo que dice la data.
Antes de conocer algunas apuestas para el mundial, es importante conocer algunos antecedentes sobre Data y Fútbol.
D: ¿En qué momento acertó la data?
Caso Matemáticamente posible - Champions 2020-2021, Chelsea vs Man. City.
Predicción de Juan Carlos (la final se jugó el 30 de mayo del 2021, el artículo de JC fue del 26):
“Si el City quiere campeonar tiene que volver a hacer su juego. Controlar la posesión, defenderse dando muchos pases y agotar al medio campo del Chelsea para poder ser más peligroso en el ataque. Volver a la contundencia de 2 goles partido en Champions league.
Si el Chelsea quiere campeonar tiene que seguir haciendo su juego. Botar al City de su arco, a penas se distraiga el equipo ciudadano salir rápido y tener un ataque profundo. Luego volver a defenderse.
Este partido es una situación de la fuerza incontenible versus el objeto inamovible. Y como es el dicho, las defensas ganan campeonatos. Igual veremos qué pasa.
Predicción: increíblemente un equipo campeón de su liga no es el favorito en este partido. Tal como dije arriba, el Chelsea gana por la mínima. ¿Y por qué no? Con gol en el segundo tiempo.”
Resultado:
“Este es un ejemplo de mi blog; mi análisis estuvo basado en datos y en la historia pasada: cómo les iba a ambos equipos en general y uno contra uno.
Me base en la data sobre cómo venían los equipos en la actualidad que es una película más real. Además, me enfoqué en cómo les había ido a ambos equipos cuando se enfrentaban y cómo es que este comportamiento se podía cruzar. Atiné al marcador, aunque me quedé un poco en el momento del gol porque según lo que leía en los datos creía que el Chelsea metería gol en el segundo tiempo, de todos modos no estuve tan lejos porque el gol de Havertz fue alrededor del minuto 41 o 42 del primer tiempo. Los datos no son perfectos pero sí tienen una mejor aproximación que el ojo humano o las propias emociones, sobre todo si es que quieres pronosticar mejores resultados. “
D: ¿Qué rol juega la suerte en el análisis de data?
“Es posible llamar “suerte” en el fútbol cuando una pelota ingresa al arco por múltiples rebotes. Otra posibilidad, más relacionada al data analytics, es cuando tiros de baja probabilidad ingresan; sin embargo, en este caso depende también de la “habilidad” del jugador que hace el disparo”.
JC explica muy bien el concepto de xG (expected goals), una de las variables más importantes al momento de querer predecir un partido.
Extracto de “xG el fútbol y cómo los datos humanizan el deporte”
“Los expected goals o goles esperados son un resultado de un modelo matemático que según algunas características da la probabilidad que un tiro ingrese al arco.
(...) ¿Qué mide el xG? Más allá de la interpretación matemática mide entre otras cosas la calidad de un ataque o varios remates de un equipo al calcular la probabilidad que esos tiros entren al arco.”
Pero el factor “suerte pura” también puede tener algo que ver en los resultados. Por ejemplo, en el partido de Perú vs Uruguay en Montevideo en el 2022, dónde Uruguay ganó 1-0, el centro de Trauco al final del partido tenía una probabilidad de menos del 1% de ingresar al arco; algunos podrían decir que fue gol y otros no. Pero el punto es que la pelota fue al arco y si el arbitro validaba ese tiro como gol entonces un “tiro” (que en realidad fue centro) de muy baja probabilidad de entrar hubiera sido anotación.
D: Parece todo muy nuevo. ¿Desde cuándo se utiliza la data en el fútbol?
Charles Reep, 1933
“Creo que el gran precursor del uso de los datos fue Charles Reep el contador inglés que comenzó con su cuaderno y un lapicero a ingresar datos y hacer sus propios análisis y deducciones.
Ayudó a varios equipos ingleses e incluso algunos a evitar el descenso.”
Extracto de HISTORY OF PERFORMANCE ANALYSIS: THE CONTROVERSIAL PIONEER CHARLES REEP
“The real-time notational system Charles Reep developed took him to Brentford in 1951. Manager Jackie Gibbons offered him a part-time adviser position to help the struggling side avoid relegation from Second Division. With Reep’s help, Brentford managed to double their goals per match ratio and secure their Division spot by winning 13 of their last 14 matches.”
URSS, 1950’
La Unión Soviética en los 50s usaba mucho la data para analizar partidos, le llamaban “el fútbol cuantitativo”. El objetivo era lograr que sus jugadores tengan el mayor físico posible y puedan correr todo el partido, algo que en aquella época era casi impensado.
Brentford
“Para mí, el mejor caso de todos, en la época moderna, es el de Brentford, club inglés. Mathew Benham, el dueño del club, instaló un sistema basado en analytics y el xG para la contratación de nuevos jugadores.
Logró dirigir el equipo como una empresa y pasaron de casi desaparecer en el 2012 a jugar la Premier League (la liga más competitiva de Europa) en el 2021, algo que no lograban desde 1947.
Con su sistema analítico de contratación inteligente basado en data en 6 años ha ganado más de 151 millones de libras en fees por la compra y venta de jugadores”
Caso Perú … Sporting Cristal

Cristal es el primer equipo peruano que ha cerrado un contrato con la empresa de analítica avanzada, Driblab.
La idea de incorporar la analítica avanzada en la toma de decisiones, principalmente en el equipo de scouting del club.
Driblab por su parte cuenta con una plataforma de scouting con más de 200,000 jugadores en la región y todo el soporte en analítica avanzada para los clubes.
D: Si todo esto es cierto JC , ¿Quién ganará el mundial?
“Te contaré sobre mis candidatos principales: Brasil, Argentina y Alemania. Brasil y Argentina han tenido un desempeño muy importante en eliminatorias y en encuentros internacionales; por otro lado, considero que Alemania, más allá de la debacle del mundial anterior, va a volver con fuerza de todas maneras.
Siempre van a sonar equipos como Francia por su participación en el mundial anterior o Inglaterra por tener el fútbol más competitivo del planeta. Pero me mantengo en los tres primeros”
“De todos modos, no solo es posible analizar jugadores sino también partidos, directores, clubes, etc. Por ejemplo en mi libro “Matemáticamente Posible el fútbol y sus mundiales” uso, en varios espacios, analítica avanzada para analizar los partidos de Perú en las eliminatorias. Es más, los números me permitieron entender ciertos misterios de porqué se dieron ciertos resultados de Perú, por qué jugó diferente en algunos partidos, por qué Gareca estuvo tan molesto, entender la evidencia de por qué hubo muchas situaciones adversas, todo esto lo detallo y lo cuento mejor en el libro.
De todos modos, los números no deben venir solos sino todo lo contrario: Tienen que venir en conjunto con el contexto. En este caso, el contexto en fútbol puede ser desde el rendimiento físico de los jugadores, las lesiones hasta la táctica utilizada por el cuerpo técnico para explotar las propias virtudes y sacar ventaja de las debilidades de los rivales.
Todo esto lo explico en mi libro, el cual ya se encuentra en preventa”
Link de pre-venta: https://forms.gle/wkAYUVppkE61hSiV6
Te comparto un análisis de la BBC sobre las probabilidades según una AI
Si este contenido colaborativo te interesa, no dudes en compartirlo con tus amigos y colegas.