Mostrando entradas con la etiqueta Estadística. Mostrar todas las entradas
Mostrando entradas con la etiqueta Estadística. Mostrar todas las entradas

jueves, 20 de septiembre de 2007

"Poirot" Ander: el pick menstrual


Cada cuatro semanas aproximadas, las hembras en edad de merecer sufren lo que eufemísticamente se denomina "el periodo". En esas fechas, durante un periodo de 3-4 días las mujeres sufren hemorragias, que van de mayor a menor fuerza. Esto tiene como efectos secundarios una actitud irritable, malestar general y sensación de cansancio. Como las deportistas de alto nivel no dejan de ser fértiles, no pueden evitar el sufrir estos trastornos periódicamente. He oído a más de un tipster profesional comentar que ellos siguen la evolución del ciclo menstrual de las tenistas profesionales y uno de ellos me aseguró que alguna de ellas se ve profundamente afectada, en lo negativo, por estos fenómenos. Sin embargo, no quise profundizar en el tema porque entiendo que determinada información demasiado sensible debe quedar para cada cual y no se debería difundir en principio a terceros. Aparte de esto, tampoco quisiera parecer una persona morbosa y deseosa de información que para la mayoría de gente se podría considerar impropia o tabú. Claro que las cosas cambian si consigo dicha información por mis propios medios.

Es sorprendente en los lugares tan inverosímiles en los que se puede encontrar algún dato relevante para las apuestas. Incluso en páginas amarillistas, como el muy destacado blog de Minah, podemos encontrar la primera pista sobre la que iniciar, como si de Hercules Poirot se tratase, un pequeño trabajo de campo. La pregunta es... a la vista del video siguiente, ¿qué motivo tendría Jelena Jankovic para cambiarse de bragas en medio de un partido?



¿Afán de exhibicionismo? No estamos hablando de Serena Williams. Y una micción involuntaria tampoco me parece de recibo en una chica joven y fuerte que en principio debería de controlar bien sus esfínteres, para no orinarse encima. Por lo tanto, lo más probable en mi opinión en que la tenista se encontrase inmensa en un periodo de actividad menstrual. Probablemente uno de los primeros días, que son más abundantes y en los que es más factible que haya un desajuste. Por otro lado, en el video se aprecia una nueva evidencia: la prenda que se quita es de color negro, menos sensible a las manchas. Y la prenda que se pone es un modelo "de la abuela", suficientemente amplio para llevar algún refuerzo interno de absorción.

No todas las mujeres son igual de puntuales con su ciclo menstrual, pero la ingesta de medicamentos anticonceptivos suele regular dicho ciclo. A la evidencia me remito, Jelena es una chica desinhibida, y por otro lado debe de evitar el hecho de resultar preñada a cualquier costa, ya que sus abundantes ingresos como tenista se podrían ver muy afectados por el periodo de inactividad y por los cambios fisiológicos debidos al embarazo y la lactancia. Por este motivo, voy a suponer que Jelena toma anticonceptivos orales y que su ciclo menstrual funciona como un reloj.

En el video podemos ver que el partido tiene lugar en tierra batida y que su rival es la francesa Marion Bartoli. En la única ocasión que se dieron esas circunstancias fue el miércoles 31 de mayo en la pista 1 de Roland Garros. A partir de ahí me he molestado en trazar un calendario en la trayectoria tenística de Jelena para contrastar su rendimiento con su periodo menstrual. Los resultados son los siguientes:

2006
31 mayo: cede un set con Bartoli, casualmente el segundo set, que es donde presuntamente Jelena sufre una hemorragia en la zona vaginal. Pierde el siguiente partido (1/32 de final) con Momo en 2 sets.
28 junio: primera semana de Wimbledon. Pierde en 1/16 de final con Myskina, aunque anteriormente había obtenido un buen resultado eliminando a una Venus (especialista en hierba) en muy bajos momentos por aquel entonces.
26 julio: pierde en segunda ronda en Stanford con Clijsters (hace un set). No tuvo demasiada suerte con los pareos.
23 agosto: descanso.
20 septiembre: pierde en semis de Pekín con Momo (3 sets). Anteriormente sufre con Petrova (3 sets).
18 octubre: pierde en segunda ronda con Kuznetsova, pero me parece más significativo que en primera ronda cediese un set con Pironkova, una jugadora bulgara procedente de las qualys, actualmente en la posición 78 del mundo.
15 noviembre: vacaciones.
13 diciembre: vacaciones.

2007
10 enero: Finalista en Sydney. Destroza a Momo en cuartos, gana en semis a Vaidisova en 3 sets y pierde la final con Kim Clijsters en 3 sets igualmente. Jelena, que venía de ganar en Aukland, se mostró muy en forma en el inicio de temporada.
7 febrero: descanso.
7 marzo: cae de manera sorprendente en octavos de Indian Wells ante la china Na Li (26ª del mundo, actualmente) en 2 sets.
4 abril: Pierde en cuartos de Amelia Island, ante Anita Ivanovic, en 2 sets.
2 mayo: Berlin. Tras pasar grandes apuros en las 2 primeras rondas ante Anabel Media (3 sets) y la china Shuai Peng, que le endoso 6-1 en el primero y forzó el tai break en el segundo, para retirarse por lesión en el tercero, cae ante Henin en cuartos, sin ofrecer mucha resistencia.
30 mayo: supera sin problemas la primera semana de Roland Garros. Únicamente cede un set en su victoria ante Venus Williams, que comenzaba a experimentar cierta mejoría en su juego.
27 junio: Wimbledon. Cae en octavos ante Bartoli. En el partido anterior también muestra debilidad, pues Safarova jugó el tai break del segundo set para imponerse en el partido. Pobre vagaje teniendo en cuenta que en los 2 torneos en hierba preparatorios había jugado ambas finales, venciendo a Sharapova en Birmingham y cediendo en Holanda ante Anna Chakvetadze.
25 julio: descanso.
22 agosto: descanso.
19 septiembre: Pekín... (inconcluso)

Globalmente, yo diría que el rendimiento durante de Jelena Jankovic durante el periodo de menstruación es bastante flojo. Lo mejor que ha conseguido es ser finalista en un torneo de hard. Estamos hablando de la tenista actualmente número 3 del ranking mundial, que avanza regularmente al menos a semifinales en la mayoría de torneos que juega en este momento y que tiene en su haber 4 victorias absolutas durante esta temporada (Auckland, Charleston, Roma y Birmingham). También se ve favorecida por su ranking al pasar exenta las primeras rondas de los torneos de menor importancia.

Otra cosa que resulta llamativa que de 9 semanas en las que ha descansado en esta temporada, 3 hayan coincidido con "esos días", lo que está por encima del promedio esperado y más teniendo en cuenta que 2 de los 3 Grand Slams coincidían con periodos de menstruación y son pruebas a las que no se puede renunciar.

Para finalizar, hay que denotar que hoy en un día de los señalados en el calendario para Jelena Jankovic. En su primer partido del Open de Pekín, su rival es la española Vivi Ruano, que en estos instantes acaba de perder el primer set por 6-0, en lo que parece un preludio de paseo militar. No parece, por tanto, que vaya a poner en dificultades a la tenista serbia aprovechando su "desventaja". Pero, aviso a navegantes, tal vez no sea bueno confiar en Jelena más adelante, cuando lleguen los partidos complicados, que en este caso podría ser su previsible duelo de semifinales ante Lindsay Davenport.

lunes, 10 de septiembre de 2007

El oddsmaker se mira la estadística. ¿Tú?

Entre los buenos tipsters hay dos tipos claramente diferenciados. Los que desestiman las estadísticas y los que las sobre estiman. Me mojaré. Muchos dirían que yo me podría englobar en el segundo grupo, aunque yo no estaría tan seguro. Se puede diferenciar a los componentes de ambas tendencias muy fácilmente.

Los que desestiman de las estadísticas son los apostadores por sensaciones. Salvo que sean grandes conocedores de su deporte o que el mercado sea muy fácil de derrotar, sus apuestas suelen ser superfluas. Y cuando hablo de deporte, quiero matizar que me refiero a la psicología colectiva y a valorar cómo y quién gana sus partidos, no de conocimientos tecnicotácticos o detalles minuciosos de los componentes individuales de los equipos. Y no es mi afán desprestigiar a esta sección, ya que hay muchos buenos tipsters en este grupo. Han aprendido a apostar como un aprendiz de conductor de automóviles que aprueba el teórico sin más que haciendo test, una y otra vez, sin poner sus manos sobre el manual de la materia. Ven una apuesta y se les enciende un lead parpadeante en color rojo que les advierte de la posibilidad de un pick. Luego piensan en lo bueno que es y adjudican su stake, un stake que suele tener un componente grande de centralismo, pues como observadores que son de las cualidades cualitativas de un pick, ya sea de fútbol, balonmano o toros, igual que un toro les cuesta diferenciar la bondad de una apuesta como al propio toro el rojo del naranja. Y aunque las diferencien no las aplican.

Pero aun en este caso, yo siempre recomiendo al tipster que coteje sus picks con los datos del pasado. El pick no debe de originarse de los antecedentes pasados, pero si puede encontrar en ellos situaciones muy desfavorables en relación a la cuota del pick. Si creemos que un pick a @1,50 es bueno, pero cuando revisamos los antecedentes ha fallado en 4 de 10 ocasiones, debe de hacernos reflexionar. O todo lo contrario, puede encontrar en el pasado una explicación sobre la bondad del pick. El oddsmaker usa los datos del pasado para predecir el futuro y no le importa que sus apreciaciones ni sean demasiado finas, siempre que por el contrario tampoco sean tan descaminadas. Sólo por eso ya conviene tener en cuenta la estadística. Y cuando no existen suficientes antecedentes, no se cortan a la hora de echarle poca imaginación.

Ejemplo: Supercopa de España de balonmano 2007-08. El oddsmaker no tiene ninguna linea de apoyo de partidos de balonmano en esa temporada y sabe que uno de los equipos se ha hecho un lavado de cara bastante importante. Conclusión: no se corta. Googlea lo siguiente: "Supercopa de España balonmano wiki", obteniendo:

Año Lugar Campeón Finalista
Res.

GT
2006-07 Pontevedra FC Barcelona BM Valladolid
36-33

69
2005-06 Málaga Portland SA BM Valladolid
29-27

56
2004-05 Lérida Ciudad Real FC Barcelona
32-29

61
2003-04 Éibar FC Barcelona Ciudad Real
26-25

51
2002-03 León Portland SA Ademar León

33-27

60
2001-02 Tudela Portland SA Ademar León

26-24

50
2000-01 Ibiza FC Barcelona BM Valladolid
34-32

64


Conclusión: el oddsmaker presentá las siguientes lineas para el partido del pasado fin de semana:
handicap: Ciudad Real -2 / FC Barcelona +2
número de goles: over/under 61,5

El resultado final del partido fue 32-30, el oddsmaker podría sacar pecho durante largo tiempo... A posteriori se puede catalogar como justo ya que el ritmo del partido no fue tan alto como se podría esperar, en parte gracias al arbitraje que rectificó al menos 4 saques rápidos del FC Barcelona en el primer tiempo. Aunque también hay que reseñar que si el final del partido hubiese estado más igualado, hubiera sido under. Por otro lado, es extraordinariamente raro que un partido siga los cauces previstos con tanta exactitud, ya que soy bastante escéptico sobre la varianza que le atribuyen a los partidos de balonmano los teasers de bet365.



Los aficionados a la estadística suelen tener formación académica de ciencias. El máximo exponente de este grupo son aquellos tipsters que proporcionan una cuota objetivo con dos decimales de aproximación. Yo no he llegado nunca hasta este punto, me parece sobrepasar la posible incertidumbre que existe en la información de un pick, pero parece que varios tipsters franceses son muy aficionados. Supongo que tienen sus algoritmos basados en el enfrentamiento particular (h2h; hand to hand), en los últimos enfrentamientos y sobre todo en los resultados contra equipos de condiciones parecidas.

Lo que nunca se valora en estos casos es la tabla clasificatoria o cualquier dato promediado sin haber realizado una depuración previa de los datos irrelevantes. La estadística sin control no tiene sentido y sobre ello hay múltiples chistes que ridiculizan a los estudiosos de la materias. O ese que dice que para un estadístico el resultado más probable al lanzar una moneda al aire es que caiga de canto.

miércoles, 11 de julio de 2007

Certeza en el largo plazo. Ley de los grandes números

Como se ha visto, el azar domina el corto y medio plazo, por lo que es absurdo hacer ninguna valoración, ni positiva ni negativa, sobre un pack de nada. Sobre todo conociendo la tendencia muy humana de promocionar los éxitos y ocultar los momentos “menos exitosos”. Sin embargo, en el largo plazo, el factor azar va perdiendo peso progresivamente y la frecuencia tiende a corresponderse con la probabilidad. Esta tesis está recogida por la teoría de la probabilidad y de hecho es una consecuencia directa del Primer Teorema Fundamental de la Probabilidad: La Ley de los Grandes Números.

Este teorema nos dice que para cualquier número todo lo pequeño que se quiera (ε), existe un número de simulaciones de un experimento que consigue que la diferencia entre la frecuencia y la probabilidad sea inferior a dicho ε. Su demostración matemática, si a alguien le interesa, se puede comprobar en el capítulo sobre esta Ley del libro de probabilidad de Grinstead, que de paso he añadido a la bibliografía recomendada, entre otras cosas porque está disponible en la Red gratuitamente.

Esto NO quiere decir que por repetir más veces un experimento necesariamente vayamos a obtener un valor más cercano a la probabilidad. Imaginemos el ejemplo del lanzamiento de una moneda. Si realizados n lanzamientos obtenemos unas frecuencias determinadas, y en el lanzamiento n+1 la moneda cae del lado que tenía una frecuencia superior al 50% durante todos los lanzamientos anteriores, entonces la estimación de la probabilidad va a empeorar a pesar de haber tomado un tamaño muestral superior. Lo que si conseguimos aumentando el número de repeticiones es estrechar el margen de error (ε). Pero dentro de ese error posible puede acercarse más o menos a la probabilidad real aleatoriamente.

Para hacerse una idea de cómo será la frecuencia de caras y cruces en el experimento de la moneda, simulé mediante Excel la repetición del experimento, con los siguientes resultados:

10 lanzamientos: 30,00% cara; 70,00% cruz
25 lanzamientos: 56,00% cara; 44,00% cruz
50 lanzamientos: 50,00% cara; 50,00% cruz
100 lanzamientos: 47,00% cara; 53,00% cruz
500 lanzamientos: 48,60% cara; 51,40% cruz
1.000 lanzamientos: 49,40% cara; 50,60% cruz
5.000 lanzamientos: 49,84% cara; 50,16% cruz
10.000 lanzamientos: 50,13% cara; 49,87% cruz
25.000 lanzamientos: 50,03% cara; 49,96% cruz
50.000 lanzamientos: 49,78% cara; 50,21% cruz

En este caso no eran necesarios tantas iteraciones como 10.000 (número de veces recomendadas por el método de simulación de Montecarlo). Con unos mil lanzamientos hubiese sido suficiente para obtener una aproximación bastante buena, pero para otros ejemplos más complejos que un coin flip se llega a la convergencia con más dificultad.

viernes, 22 de junio de 2007

El Golpe. La trama. (4/5)

ver parte 3 de 5



Sin embargo, a pesar de sus esfuerzos por hacer una valoración exacta de los posibilidades de cada jugador en la apuesta, el oddsmaker de Bwin volvió a errar. El cazador cazado. Una vez más.

El razonamiento más correcto y fino hubiese sido el siguiente:

La probabilidad de ganar el primer juego es la misma que de ganar cualquier juego del partido siempre que vaya a sacar cualquiera de los jugadores aleatoriamente. El hecho de que haya un sorteo mediante moneda al aire no implica esto último, ya que el ganador del sorteo tiene potestad para elegir la opción que más conveniente crea: campo o saque. Nadal elige siempre campo cuando gana el sorteo. Federer elige preferiblemente saque, aunque no siempre. La mayor parte de los tenistas suelen hacer como Federer, ya que ir por delante en el marcador en tenis da una importante ventaja psicológica, principalmente cuando se consegue un break, ya que en ese caso la ventaja es de 2-3 juegos, y no de 1-2 juegos como sucede cuando el brekeado empieza sacando. Lo mismo se aplica en un tie break. Para que un jugador ordinario elija campo tiene que haber circunstancias especiales que le motiven: viento, sol, etcétera. Lo extraño es la actitud de Nadal, que prefiere ir a la contra. La única ventaja es evitar comenzar sacando en frío en ese primer juego, sobre todo para los jugadores que no tienen un saque especialmente bueno. Es el único beneficio que se consigue.

Por lo anterior, estimo en un 80% (desde el lado de la seguridad) la probabilidad de que Federer empiece sacando, que es bastante más que el 50% que existe en el coin flip que había estimado el oddsmaker de Bwin. Esta diferencia tiene una influencia decisiva en la estimación de la apuesta. Afortunadamente, en ATP-tennis sigue habiendo suficiente material estadístico para realizar los cálculos en este supuesto.

En los antecendentes (tierra):
Frecuencia con la que Federer hace break a Nadal: (6/19 + 4/18 + 4/27 + 3/18 + 0/10 + 5/11) / 6 = 22%
Frecuencia con la que Nadal hace break a Federer: (9/19 + 7/14 + 3/27 + 4/18 + 2/10 + 2/11) / 6 = 28%

Cuota justa estimada para Nadal gana el 1er juego = 1 / [0,8 • (0,28) + 0,2 • (1–0,22)]
= 1 / (0,23 + 0,16)
= @2,63 (38%)

Cuota justa estimada para Federer gana el 1er juego = 1 / [0,8 • (1–0,28) + 0,2 • 0,22]
= 1 / (0,58 + 0,04)
= @1,61 (62%)

Como la cuota ofrecida por Bwin es @1,95 (superior a su cuota justa, @1,61) la apuesta es un buen value y SÍ deberíamos apostar.

El value se puede estimar mediante la estimación de la expectativa positiva como definí hace unos días:

Value% = (1,95 • 62%) – 1 = +18%

Un +18% es un valor de tipster bueno. Y más si el pick se ha dado de forma modesta, desde el lado de la seguridad.

En el caso de que supiéramos que Federer iba a comenzar sacando con total seguridad, la cuota justa aun hubiese sido inferior (@1,39). En este caso podríamos hablar de +40% de value, aunque me parecería poco realista ya que yo he visto a Federer en el pasado empezar restando (¡y contra Nadal!).

También quiero apuntar que el stake aconsejado por mí en el pick (2/10) es matemáticamente incorrecto. A la vista de estos cálculos y utilizando razonamientos basados en el criterio de Kelly, al menos debería haber recomendado un stake superior, 5 o 6. El hecho de que se tratase de una apuesta especial me condicionó para ser más prudente, y también es coherente con los límites que hay en estas apuestas, que son superiores al de una apuesta normal, como bien sabe Juan González. En el futuro colgaré en el blog una herramienta para la automatización en la asignación de stakes que puede ser interesante.

ver última parte

jueves, 21 de junio de 2007

El Golpe. El Gancho (the Hook) (3/5)

ver parte 2 de 5



Los apostantes se muestran más activos en los eventos importantes, en aquellos que tienen gran trascendencia social. Esto lo saben las casas y hacen un esfuerzo por responder a ese interés aumentando el número de proposiciones e intentando confeccionar posibilidades atractivas. Esto llega a su culminación cuando se alcanzan las rondas finales, cuando el interés es máximo. De forma inversa, el número de partidos en ese momento es mínimo, por lo que las casas suelen sacar mayor número de opciones o apuestas especiales.

Este fue el caso de Bwin en el pasado Roland Garros. Los foreros de Soloapuestas seguramente recuerden el primer pick que propuse de tenis, que tenía como protagonista a Rafael Nadal. El tenis no es el deporte en el que mejor me desenvuelvo, pero ante la inactividad pública del Dr. Lasker me parecía poco atractivo de cara a la web que no se colgase en meses ni un solo pick de tenis. Ese primer pick fue sobre la apuesta "Ganador del primer juego", un tipo de apuesta especial, sobre el que el bookie no se suele pronunciar con antelación.

El razonamiento del oddsmaker fue: "la probabilidad de ganar el primer juego es la misma que de ganar cualquier juego del partido, dado que el dueño del saque en este juego se sortea".

El oddsmaker estaba bien pertrechado de datos estadísticos para realizar su estimación. Según la estadística son necesarias no menos de 30 repeticiones del mismo juego en las mismas condiciones para poder considerar que la frecuencia de dicho juego tiene un comportamiento normal, es decir que se ajusta aproximadamente a una distribución normal. Es poco habitual que en eventos deportivos tengamos tantos antecedentes con condiciones parecidas a las actuales. Evidentemente las estadísticas de un partido Real Madrid-Deportivo en los tiempos de Di Stefano no son extrapolables a la época actual de ninguna forma. En este caso, en cambio, tenemos varios cientos de juegos disputados entre ambos jugadores en tierra batida, siendo Nadal el mejor del mundo en dicha superficie y Roger Federer su máximo oponente; más que suficientes para confeccionar las cuotas de la apuesta desde un tratamiento estadístico.

Antecedentes en tierra batida: 6
Juegos ganados por Federer: 102 (47%)
Juegos ganados por Nadal: 115 (53%)

Antecedentes en el torneo: 6 cada uno
Juegos ganados/perdidos por Federer: 97/69 (58%)
Juegos ganados/perdidos por Nadal: 93/51 (65%)

Dándole el mismo peso a las 2 fuentes estadísticas:

Cuota “juego justo” para Federer gana 1er juego = 2 / (47/100 + 58/123) = @2,12
Cuota “juego justo” para Nadal gana 1er juego = 2 / (53/100 + 65/123) = @1,88

Si aplico una comisión del 20% sobre los beneficios potenciales de cada apuesta, que es exactamente cuatro veces más que el que aplica por ejemplo Betfair en una apuesta convencional:

Cuota para Federer gana 1er juego = [(2,12 – 1) • 0,8] + 1 = @1,90
Cuota para Nadal gana 1er juego = [(1,88 – 1) • 0,8] + 1 = @1,70


Compruebo que estoy aplicando un margen adecuado en términos de incremento de probabilidad:

P* = 1/1,90 + 1/1,70 = 111,4%

Es un margen del tipo del que se considera adecuado para apuestas especiales de 2 opciones (equivalente a una apuesta de handicap a @1,80), en las que el bookie aplica un margen mayor, por lo general, al no tener suficiente seguridad y experiencia, a acusa del carácter especial de la apuesta.

Para la apuesta anterior, Bwin había estimado el evento de forma muy parecida. Sus cuotas fueron:

Cuota para Federer gana 1er juego = @1,95
Cuota para Nadal gana 1er juego = @1,65

Como, según mi razonamiento anterior:
1,95 menor que 2,12
1,65 menor que 1,88

(y además bastante menores!!), NO deberíamos apostar. Sin embargo un razonamiento más correcto para estimar la probabilidad de cada opción en dicha apuesta exigía ciertos conocimientos profundos de la psicología del juego y de ambos jugadores.

ver parte 4 de 5

domingo, 17 de junio de 2007

El Método de Montecarlo y el yield real

Repasando la wiki y alguno de mis viejos conceptos matemáticos me he percatado de que mucha de esa literatura era bastante espesa, incluso para mí. También he hablado con algún lector de mi blog que me felicitaba por mis entradas y me decía que se leía todo menos los artículos matemáticos. En deferencia a ese lector hoy cuelgo otro artículo matemático (o de-formación profesional).

Suelo revisar bastante las estadísticas del blog, sobre todo las keywords. A veces gente realiza búsquedas de “hombres gordos bailando” o “pelea de hombres gordos” y se ve conducido a la entrada de Serena Williams. Y es divertido. Otras veces alguien busca algo así como “yield adecuado para las apuestas” o “cual es buen ratio ganancia apuestas”. Y es interesante. Evidentemente esta persona está interesada en saber si su promedio de aciertos es razonablemente bueno en comparación con los demás. Me está preguntando: ¿Soy buen tipster? ¿Puedo vivir de esto?

Parcialmente yo ya había respondido a esta respuesta. La medida para medir la capacidad de un tipster es el yield con el criterio del stake. Una vez hayamos calculado nuestro yield deberíamos saber que cualquier cosa que sea positiva es un buen yield. Muchos autores de Money Management establecen que lo crítico en ganar, estar en verde, sin importar la cuantía de esa rentabilidad. Lo normal es que no sea así, lo normal es que el apostador pierda dinero.

Si tenemos más de un +10% podemos considerarnos un muy buen tipster. Y conseguir un +20% de yield a largo plazo son unos números de un tipster sublime, de mucha calidad.

Por poner algún ejemplo, el “asesor deportivo” Juan González se ha marcado un +12% el primer mes, Nirgalbest se mueve por el +24% en Soloapuestas. Aun así, por ponerles algún pero a ambos he de decir que Winpicksworld ha “inflado” sus números desde un yield del +5% al citado +12% gracias entre otras cosas a 2 picks de balonmano con stakes gigantes, que tenían una fuerte limitación (por lo que es irreal asignar stake 8) y que las casas corrigieron casi (o sin el casi) antes de que les diese tiempo a finalizar la traducción. Y con respecto a mi compañero Nirgalbest, tengo que decir que sus picks son muy largos. Y también que es muy muy selectivo. No solo el yield es importante, también la capacidad de reproducir ese yield. Un apostador que consiguiese un +1% de yield en cualquier punto de un partido de tenis podría alcanzar la misma rentabilidad que con uno de sus sesudos picks en 3 juegos.

Otros yields reseñables son los del tipster centroeuropeo Lakini, gurú del futbol alemán, y lo reseño porque está demostrando en Bettingbasket que también le pega al baloncesto, con un +42% en 13 apuestas, aunque en su caso hay que decir que este número de apuestas no es significativo (por pequeño) y dicho yield no es sostenible. Yo mismo me marque una rentabilidad de ese orden en el primer mes de Soloapuestas. Son números irreales, que se deben corregirse a esa horquilla ya citada, entre el 10-20% (25% como mucho) donde se mueven los buenos tipsters.

¿Cuántos picks he de hacer para saber si mi estadística es real? La respuesta nos la da la probabilidad. Uno de los teoremas fundamentales (la Ley de los Grandes Números) nos dice que cuando un experimento se repite infinitas veces su frecuencia de éxito coincide con la probabilidad. Evidentemente es imposible hacer infinitas repeticiones, pero sí se pueden hacer muchas. ¿Cuántas exactamente? La norma del método de simulaciones de Montecarlo nos dice que un mínimo de 10.000. El método de Montecarlo es un método heurístico que se ha desarrollado gracias a las computadoras y que se usa para resolver problemas complejos que están perfectamente definidos, pero que resultan muy complicados (o que no es posible) de resolver analíticamente. Consiste en simular un proceso de forma reiterada hasta la cifra citada. Y una vez realizado esto, el resultado promedio se considera que coincide de forma suficientemente aproximada con la probabilidad real. Para una persona, esto resultaría una tarea de chinos. Una máquina lo puede hacer con relativa rapidez. Las aplicaciones del método de Montecarlo son enormes, y muy destacadas en disciplinas como la mecánica de fluidos, tan importante para diseñar elementos aeronaúticos o un alerón de Fórmula1. También se ha aplicado en el juego. Montacarlo es famoso por sus casinos y el nombre del método no es casual.

Por tanto, si tras 100 o 200 apuestas (o manos de póquer participando en el bote) tienes un yield positivo, esto no quiere decir nada. Es posible que simplemente atravieses una racha de buena suerte. Deberás de esperar hasta alcanzar esas el orden de diez millares y entonces sí podrás extraer conclusiones reales.

jueves, 31 de mayo de 2007

Estadísticas sobre la inestabilidad de los tenistas y la de Carlos Moyá

Tras la entrada de ayer, creo que lo coherente es mostrar algún tipo de estadística que demuestre que Carlos Moyá es realmente un jugador al que le gusta “dar emoción a los partidos”. Los datos estadísticos (resultados históricos) se pueden encontrar en la base de datos de ATP Tour y para elaborarlos ha considerado el número de partidos con un 3 sets disputados en el periodo de un año natural, pero sólo considerando los partidos limitados a un máximo de 3 sets. Por tanto he omitido deliberadamente Davis, Grand Slam y algunas de las finales, aunque a partir de este año las finales de torneos que no sean de Grand Slam son en cualquier caso al mejor de 3 sets.

Carlos Moyá:

En primer lugar, quiero comentar a modo de Fé de erratas que el partido que mencioné ayer entre Moyá y Vicente no fue en Roland Garros’2006, sino en la edición 2005. ¡Cómo pasa el tiempo!
La estadística de partidos jugados a 3 sets por Moyá es la siguiente: (hacer clic en la imagen para ampliar)


Observaciones:

  • En todos los casos estudiados Moya se encuentra por encima de la barrera del 35% de partidos jugados a 3 sets que suponermos que es la media (a continuación se comprobará)
  • En los últimos 2 años, Moyá juega especialmente largo. Podría deberse a que su veteranía le hace regular mejor sus esfuerzos. En estos últimos años, el dato es especialmente alto. No he encontrado otro jugador con números superiores en la realización del estudio (lo que no quiere decir que no lo haya… Si alguien lo encuentra, que lo añada en “comentarios”.

Jugadores del Top-9
También he calculado el porcentaje de partidos a 3 sets jugados por el Top-9 actual, para comparar con los números de Moyá y encontrar un valor promedio. El color de cada columna representa la superficie en la que el jugador se siente especialmente a gusto, aunque esto es discutible. (hacer clic en la imagen para ampliar)


Observaciones:

  • El promedio de utilización del tercer y último set es ligeramente superior al 35%, confirmando nuestra suposición.
  • El número de victorias de Nadal en 2 sets es muy elevado, apoyándose en su superioridad en tierra. De modo contrario, he encontrado un mayor número de partidos a 3 sets en el caso de Federer, que no me esperaba que fuese tan alto.
  • Robredo y González son otros 2 jugadores inestables.
  • En 3 de los partidos de Davidenko, se retiró, aunque esto no afectaría prácticamente a la gráfica ya que el ruso jugó un total de 76 partidos a 3 sets el pasado año, el mayor número de retiradas de todos los jugadores considerados en esta lista, solo siendo superado por Haas (con 4; en la siguiente gráfica), aunque en descargo del alemán hay que decir que él sí tiene problemas físicos constantemente. De hecho, actualmente está lesionado.

Jugadores del Top-100

Está nueva gráfica la hago con motivo de comprobar la validez del supuesto del promedio del 35%. Podría darse el caso que los 9 primeros jugadores, por ser muy superiores al resto tuviesen muchas victorias en 2 sets, por ejemplo. Por ese motivo tomare aleatoriamente 9 jugadores distribuidos homogéneamente en el top 100. Consideraré los jugadores con el ranking 10,20,30,…, 80 y 90. (hacer clic en la imagen para ampliar)


Observaciones:

  • La media es ligeramente inferior al 35%, así que podemos dar definitivamente por bueno el supuesto.
  • En general no observo a simple vista ninguna correlación entre el tipo de jugador (saque y volea, defensivo, etcétera) y el número de sets disputados.