Mayo del 2014
REGRESIONES
PARA NEÓFITOS
Una
regresión es una operación matemática que relaciona dos o más conjuntos de
datos para determinar si están vinculados entre sí.
La
operación matemática está montada sobre un escenario, o un plano X, Y, en el
cual se representan todos los datos para medir la distancia entre ellos. Luego,
traza una ruta que pasa donde se concentre la mayor cantidad de datos
semejantes entre sí. Nos quedamos con un ejemplo:
Después
de un juego del Máster de golf de un país X hay 100 pelotas regadas en el
campo. La persona encargada de recoger las pelotas tiene pocos minutos para
acopiar la mayoría de ellas antes del siguiente juego, por lo que hace una
regresión valiéndose de una computadora.
Gracias
a que las pelotas tienen un chip GPS integrado, el sofware del recogepelotas
puede representar la ubicación de cada uno de ellas en un plano. En el primer
intento, el recogepelotas probó con una regresión lineal. A través del gráfico
generado por la computadora el recogepelotas se da cuenta que no le conviene
seguir esa ruta porque las pelotas están muy lejos de ella. Cabe decir que la
operación tomó como el inicio de la ruta la ubicación del recogepelotas, la
ubicación cero. Luego trazó la línea hasta donde estaban las pelotas más
lejanas.
Como no
le funcionó la regresión lineal con los datos que tenía, el recogepelotas
prueba con otro modelo de regresión. Utilizando una regresión múltiple,
probablemente podría tener una mejor ruta. La regresión múltiple utiliza la
información de la ubicación de las pelotas y la ubicación de los hoyos en el
campo. El recogepelotas piensa logicamente que, como los hoyos fueron el
objetivo de los golfistas, las pelotas deben estar más cerca de ellos. Con esta
información obtuvo una mejor ruta, aunque no quedó convencido. Al parecer el
viento de la mañana hizo que los golfistas no atinaran mucho el día de hoy. El
dato que observa el recogepelotas para conocer la correlación entre los datos
es el R cuadrado. Si el valor es 1, las pelotas estarían de hecho muy cercanas
a una posible ruta. Mientras el número fuera menor de 1 significaba que las
pelotas se alejaban de una posible ruta.
Con el
tiempo corriendo en su contra, el recogepelotas decide probar un tercer modelo
aún más arriesgado, pero que le salvaría el empleo si fuese positivo. Sabiendo
que la competencia del día era el Máster de golf del país, donde compiten los
mejores golfistas, intuyó que hay dos grupos, los buenos que compiten por el
primer lugar, y los regulares que pelean por el cuarto lugar. Por lo tanto,
utilizando sus conocimientos en el deporte hizo la clasificación y formó los
dos grupos. Intuyó que la mejor ruta será aquella donde los mejores golfistas
jugaron. Por ello, corrió una regresión logística, que categoriza los datos
según dos o más cualidades. En este caso, utilizó el grupo de los mejores
golfistas y los comparó con los demás. Efectivamente, el programa trazó una
buena ruta, pero para su sorpresa, los mejores golfistas fueron los que
ocuparon menos pelotas, porque sus tiros fueron más efectivos. Esto desilusionó
al golfista por no haber supuesto antes el importante detalle.
Con el
tiempo para recoger las pelotas reducido a la mitad, el recogepelotas no se dio
por vencido. Si se disponía a recoger las pelotas sin una ruta, el promedio de
pelotas recogidas será menor al promedio de pelotas después de haber encontrado
una ruta, aunque el tiempo fuera menor. Pensó en utilizar una regresión
múltiple utilizando información adicional de las pelotas desde el momento del
golpe con el palo de golf. Cada pelota trazó un tipo de parábola que le podría
servir para hacer más atinada la ruta a seguir. Y aún más, la estela de la
pelota estaba dada de acuerdo al estilo del golpe de cada golfista, por lo que
la regresión aún podría ser más precisa si tomaba en cuenta esta información
adicional.
Había
golfistas con diferentes estilos. Entre ellos estaban:
A. El lineal,
un estilo donde la pelota va con tanta fuerza que la computadora, por defecto,
no registra parábola.
B. Otro
estilo es el cuadrático, un estilo donde la pelota se eleva y baja rápidamente
formando una elipse.
C. El
exponencial, un estilo en el que la pelota se parece al ascenso de un avión.
Comienza plana pero se va elevando. Muy pocos golfistas dominan la técnica
porque necesitaban un viento ascendente en contra para ejecutarlo.
D. Y
por último, el estilo logarítmico, aquel en el que la pelota traza una parábola
parecida a una bala de cañón.
Para su
satisfacción, teniendo en cuenta que la mayoría de los golfistas practicaban el
estilo cuadrático, corrió una nueva regresión que le permitió obtener un R
cuadrado muy cercano a 1. Trazó su ruta y cumplió a tiempo su trabajo. Y
además, por si fuera poco, el avanzado recogepelotas hizo proyecciones para las
otras etapas del Máster, así adelantó la logística que implicaba el recoger las
pelotas utilizando este fantástico modelo matemático.