Como eliminar valores atipicos de un conjunto de datos usando Python

windows

En el campo de los datos, los datos cientificos juegan un papel importante porque todo lo que hacemos se centra solo en los datos.

Las empresas están contratando personas especializadas para el manejo de sus datos y la empleabilidad en este sector está aumentando muy rápidamente. La razón del éxito de este campo se debe a la incorporación de ciertas herramientas para el manejo de datos, y estas son principalmente lenguajes de programación, herramientas de visualización de datos, herramientas de administración de bases de datos.

Con la ayuda de estas cosas, se ha vuelto fácil manejar cualquier tipo de datos, asi como almacenarlos en un lugar más seguro. Con tales avances, una cosa a tener en cuenta es que cualquier error cometido al manejar estos enormes conjuntos de datos conduce al fracaso total del proyecto en el que está trabajando una empresa. El empleado debe satisfacer las necesidades del empleador proporcionándole información significativa sobre los datos y no ningún tipo de basura. Como se mencionó, con la ayuda de los lenguajes de programación, el manejo de datos se ha vuelto muy fácil, esto se debe a que estos lenguajes de programación les dan a los cientificos de datos la libertad de jugar con sus datos y modificar los mismos para obtener diferentes resultados y luego seleccionar el mejor. Uno de esos lenguajes de programación es Python. Es un lenguaje potente y preferido para realizar actividades relacionadas con la ciencia de datos

Hablando de los datos, entonces los datos que usamos deben limpiarse adecuadamente para que no contengan ningún tipo de puntos sospechosos que puedan conducir a un rendimiento deficiente. Estos puntos sospechosos se denominan valores atipicos y es fundamental eliminar estos valores atipicos si la empresa asi lo desea. Asi que echemos un vistazo a cómo eliminar estos valores atipicos utilizando el lenguaje de programación Python:

Eliminación de valores atipicos

Un valor atipico se puede denominar como un punto en el conjunto de datos que está lejos de otros puntos que están lejos de los demás. Entonces, ¿cómo eliminarlo? Aqui encontrarás todas las respuestas.

Visualización del valor atipico

Para visualizar los valores atipicos en un conjunto de datos, podemos usar varios diagramas como diagramas de caja y diagramas de dispersión. El diagrama de caja nos dice la agrupación de cuartiles de los datos; da la agrupación de los datos en base a percentiles. Si los puntos se encuentran dentro del rango de cuartiles, se utilizan para el análisis y si están fuera del rango, se denominan valores atipicos y se eliminan del conjunto de datos. Los diagramas de caja se pueden utilizar en puntos individuales y esto se denomina análisis univariante. Además, si tenemos una variable categórica y la otra continua, también podemos usar el diagrama de caja y esto se denomina análisis multivariado.

Los diagramas de dispersión son el tipo de diagramas que se utilizan principalmente para el análisis bivariado, ya que necesitamos una coordenada X e Y en la que compararemos las diferentes variables entre si. Este tipo de gráfico ayuda a detectar valores atipicos al identificar los puntos que están lejos de todos los puntos, es decir, si los puntos máximos están centrados hacia la región izquierda del gráfico y uno o dos están hacia el lado derecho del gráfico, entonces estos dos puntos serán los valores atipicos.

Eliminar el valor atipico

Usar la puntuación Z: esta es una de las formas de eliminar los valores atipicos del conjunto de datos. El principio detrás de este enfoque es crear una distribución normal estándar de las variables y luego verificar si los puntos caen por debajo de la desviación estándar de + -3. Si los valores se encuentran fuera de este rango, se denominan valores atipicos y se eliminan.

Usar percentil / cuartil: este es otro método para detectar valores atipicos en el conjunto de datos. Aqui utilizamos los diagramas de caja para visualizar los datos y luego nos encontramos con el 25 º y 75 º percentil valores del conjunto de datos. Una vez hecho esto nos encontramos con la puntuación intercuartil restando el 5 º percentil valor desde el 25 ° percentil y luego encontramos los limites inferior y superior de los datos mediante la multiplicación de la misma con un 1,5. Cualquier punto que se aleje del limite superior e inferior se denomina valor atipico.

Gracias por visitar este sitio, espero que te haya gustado y vuelvas proximamente, compartela en las redes sociales, gracias

Compartir en Facebook Compartir en twitter

Semrush sigue a tu competencia


Fecha actualizacion el 2020-08-31. Fecha publicacion el 2020-08-31. Categoria: windows 10 Autor: Oscar olg Mapa del sitio Fuente: how2shout Version movil