Diferencia entre codificacion de etiquetas y codificacion en caliente

windows

El preprocesamiento de datos es un paso muy crucial en la creación de cada modelo de aprendizaje automático porque las características independientes y dependientes deben estar alineadas de la manera más lineal posible, es decir, las características independientes deben separarse de tal manera que se pueda realizar la asociación adecuada con la característica de destino de manera que la precisión del modelo aumenta

Por preprocesamiento de datos nos referimos a escalar los datos, cambiar los valores categóricos a numéricos, normalizar los datos, etc. Hoy discutiremos la codificación de las variables categóricas en numéricas utilizando técnicas de codificación y aprenderemos las diferencias entre las diferentes codificaciones. El lenguaje de programación que tomamos aquí como referencia es Python. Las diferentes técnicas de codificación que están presentes para preprocesar los datos son One Hot Encoding yCodificación de etiquetas . Entendamos estos dos, uno por uno y tratemos de aprender la diferencia entre los dos:

Codificación de etiquetas

Esta es una técnica de preprocesamiento de datos en la que intentamos convertir el tipo de datos de la columna categórica a numérico (de cadena a numérico). Esto se hace porque nuestro modelo de aprendizaje automático no comprende los caracteres de cadena y, por lo tanto, debería haber una disposición para codificarlos en un formato comprensible para la máquina. Esto se logra con el método Label Encoding. En el método de codificación de etiquetas, las categorías presentes en las características categóricas se convierten de una manera asociada con la separación jerárquica. Esto significa que si tenemos características categóricas en las que las variables categóricas están vinculadas entre sí en términos de jerarquía, entonces deberíamos codificar estas características usando Codificación de etiquetas

Una codificación en caliente

Esta es también una técnica de codificación en el campo del aprendizaje automático donde intentamos convertir las variables de cadena categóricas en numéricas.

La forma en que convierte estas características en numéricas es muy interesante. Crea variables ficticias en los datos que corresponden a las variables categóricas.

Esto significa que a cada característica categórica se le asigna una columna ficticia. Las columnas ficticias no son más que un vector caliente en el espacio n-dimensional. Este tipo de técnica de codificación es más adecuada para características no jerárquicas donde no existe un vínculo de una variable con otras. Podemos decir que es opuesto a Label Encoder en la forma en que funciona. Sin embargo, hay un inconveniente de One Hot Encoding, que también se llama Dummy Variable Trap. Esto significa que las variables están altamente correlacionadas entre sí y conduce a problemas de multicolinealidad. Por multicolinealidad, nos referimos a la dependencia entre las características independientes y eso es un problema. Para evitar este tipo de problema, descartamos una de las columnas de variables ficticias y luego intentamos ejecutar nuestro modelo de aprendizaje automático.

Gracias por visitar este sitio, espero que te haya gustado y vuelvas proximamente, compartela en las redes sociales, gracias

Compartir en Facebook Compartir en twitter

Semrush sigue a tu competencia


Fecha actualizacion el 2020-08-31. Fecha publicacion el 2020-08-31. Categoria: windows 10 Autor: Oscar olg Mapa del sitio Fuente: how2shout Version movil