miércoles, 8 de abril de 2015

REGRESIONES PARA NEÓFITOS

Mayo del 2014

REGRESIONES PARA NEÓFITOS

Una regresión es una operación matemática que relaciona dos o más conjuntos de datos para determinar si están vinculados entre sí.

La operación matemática está montada sobre un escenario, o un plano X, Y, en el cual se representan todos los datos para medir la distancia entre ellos. Luego, traza una ruta que pasa donde se concentre la mayor cantidad de datos semejantes entre sí. Nos quedamos con un ejemplo:

Después de un juego del Máster de golf de un país X hay 100 pelotas regadas en el campo. La persona encargada de recoger las pelotas tiene pocos minutos para acopiar la mayoría de ellas antes del siguiente juego, por lo que hace una regresión valiéndose de una computadora.

Gracias a que las pelotas tienen un chip GPS integrado, el sofware del recogepelotas puede representar la ubicación de cada uno de ellas en un plano. En el primer intento, el recogepelotas probó con una regresión lineal. A través del gráfico generado por la computadora el recogepelotas se da cuenta que no le conviene seguir esa ruta porque las pelotas están muy lejos de ella. Cabe decir que la operación tomó como el inicio de la ruta la ubicación del recogepelotas, la ubicación cero. Luego trazó la línea hasta donde estaban las pelotas más lejanas. 

Como no le funcionó la regresión lineal con los datos que tenía, el recogepelotas prueba con otro modelo de regresión. Utilizando una regresión múltiple, probablemente podría tener una mejor ruta. La regresión múltiple utiliza la información de la ubicación de las pelotas y la ubicación de los hoyos en el campo. El recogepelotas piensa logicamente que, como los hoyos fueron el objetivo de los golfistas, las pelotas deben estar más cerca de ellos. Con esta información obtuvo una mejor ruta, aunque no quedó convencido. Al parecer el viento de la mañana hizo que los golfistas no atinaran mucho el día de hoy. El dato que observa el recogepelotas para conocer la correlación entre los datos es el R cuadrado. Si el valor es 1, las pelotas estarían de hecho muy cercanas a una posible ruta. Mientras el número fuera menor de 1 significaba que las pelotas se alejaban de una posible ruta.

Con el tiempo corriendo en su contra, el recogepelotas decide probar un tercer modelo aún más arriesgado, pero que le salvaría el empleo si fuese positivo. Sabiendo que la competencia del día era el Máster de golf del país, donde compiten los mejores golfistas, intuyó que hay dos grupos, los buenos que compiten por el primer lugar, y los regulares que pelean por el cuarto lugar. Por lo tanto, utilizando sus conocimientos en el deporte hizo la clasificación y formó los dos grupos. Intuyó que la mejor ruta será aquella donde los mejores golfistas jugaron. Por ello, corrió una regresión logística, que categoriza los datos según dos o más cualidades. En este caso, utilizó el grupo de los mejores golfistas y los comparó con los demás. Efectivamente, el programa trazó una buena ruta, pero para su sorpresa, los mejores golfistas fueron los que ocuparon menos pelotas, porque sus tiros fueron más efectivos. Esto desilusionó al golfista por no haber supuesto antes el importante detalle.

Con el tiempo para recoger las pelotas reducido a la mitad, el recogepelotas no se dio por vencido. Si se disponía a recoger las pelotas sin una ruta, el promedio de pelotas recogidas será menor al promedio de pelotas después de haber encontrado una ruta, aunque el tiempo fuera menor. Pensó en utilizar una regresión múltiple utilizando información adicional de las pelotas desde el momento del golpe con el palo de golf. Cada pelota trazó un tipo de parábola que le podría servir para hacer más atinada la ruta a seguir. Y aún más, la estela de la pelota estaba dada de acuerdo al estilo del golpe de cada golfista, por lo que la regresión aún podría ser más precisa si tomaba en cuenta esta información adicional.

Había golfistas con diferentes estilos. Entre ellos estaban:

A. El lineal, un estilo donde la pelota va con tanta fuerza que la computadora, por defecto, no registra parábola.

B. Otro estilo es el cuadrático, un estilo donde la pelota se eleva y baja rápidamente formando una elipse.

C. El exponencial, un estilo en el que la pelota se parece al ascenso de un avión. Comienza plana pero se va elevando. Muy pocos golfistas dominan la técnica porque necesitaban un viento ascendente en contra para ejecutarlo.

D. Y por último, el estilo logarítmico, aquel en el que la pelota traza una parábola parecida a una bala de cañón.

Para su satisfacción, teniendo en cuenta que la mayoría de los golfistas practicaban el estilo cuadrático, corrió una nueva regresión que le permitió obtener un R cuadrado muy cercano a 1. Trazó su ruta y cumplió a tiempo su trabajo. Y además, por si fuera poco, el avanzado recogepelotas hizo proyecciones para las otras etapas del Máster, así adelantó la logística que implicaba el recoger las pelotas utilizando este fantástico modelo matemático.