Que es la asimetria y la curtosis en la ciencia de datos
Para todos los científicos de datos, es muy importante hacer ingeniería de características antes de realizar cualquier tipo de análisis con el conjunto de datos, digamos predictivo o prescriptivo
Las técnicas de ingeniería de características implican muchas cosas como eliminar valores nan de los datos, eliminar columnas innecesarias, escalar los datos, dividirlos, fusionarlos, concatenarlos y muchas más. Con la ayuda de estas técnicas de ingeniería de características, la precisión de nuestro modelo aumenta y podemos obtener resultados mejores y confiables. De todas estas técnicas de ingeniería de características, dos importantes son la asimetría y la curtosis. Los detalles de estos se dan a continuación:
Oblicuidad
Por sesgo nos referimos a la falta de simetría que tiene un conjunto de datos. En términos simples, si estamos trazando una distribución de nuestro conjunto de datos como una distribución normal, entonces cuánto sesgado está el conjunto de datos con respecto a su media.
Cuanto más sesgado, más falta de simetría. Se dice que una distribución es simétrica o sin sesgo cuando los valores se distribuyen uniformemente alrededor de la media. En tales casos, el sesgo es cero y media = moda = mediana. Esto implica que en la distribución simétrica la media, la moda y la mediana coinciden entre sí. Hay principalmente dos tipos de sesgo basados en la asimetría y estos son el sesgo a la izquierda y el sesgo a la derecha. Cuando la distribución se extiende como tal que la media se encuentra en el lado izquierdo y los valores atípicos se encuentran en la región de la cola del gráfico, se denomina distribución correctamente sesgada y cuando sucede lo contrario, la media se desplaza hacia la derecha. y valores atípicos que se encuentran a la izquierda del gráfico, se denomina sesgo a la izquierda. El rango de la asimetría es negativo, positivo o neutral según la siguiente fórmula: S k = 3 (media - mediana) / Desviación estándar
Aquí, S k se llama coeficiente de asimetría y si es negativo, la distribución está sesgada negativamente y, si es positiva, sesgada positivamente. Si el mismo es 0, entonces no hay sesgo. El rango de este coeficiente es de -3 a +3.
β 1 = µ 3 2 / µ 2 3
Aquí µ2 y µ3 son el segundo y tercer momento central. Aquí µ2 es la varianza.
La estimación de la muestra viene dada por:
b 1 = m 3 2 / m 2 3 , y m3 y m2 están dados por:
m2 = ∑ (x- x ̅ ) 2 / n-1
m3 = ∑ (x- x ̅ ) 3 / n-1
Si se considera una distribución simétrica, el valor de b1 debería ser igual a 0. En función de si m3 es positivo o negativo, se decide la dirección de la asimetría.
Curtosis
Se define como la medida de convexidad o picos del gráfico / curva. En general, existen tres tipos de curtosis y son la curva mesocúrtica o curva normal, la curva leptocúrtica de la curva saltante y la curva platicúrtica o curva plana. La curtosis se mide mediante el coeficiente β2 de Pearson.
La fórmula para β2 es:
β2 = µ4 / µ2 2 donde si tomamos la estimación de la muestra entonces b2 = m4 / m2 2
El valor de m4 se da como: m4 = ∑ (x- x ̅ ) 4 / n-1
Si el valor de este b2 es igual a 3, entonces se dice que la distribución es normal, si es más de 3 entonces se llama leptocúrtica y menos de 3 entonces platicúrtica
¿Te es util este articulo?. ¿Tienes una opinion relacionada con este articulo?. ¿Te has entretenido con nosotros?.
Si la respuesta es afirmativa, dejanos un comentario :) y como no Gracias por vernos