Alternativas de GTP3 de código abierto para probar

Aquí hay una lista de las 10 mejores alternativas de GTP-3 de código abierto que debe probar.

Desarrollado por un grupo de más de 1000 investigadores de IA, Bloom es un modelo de idioma multilingüe de código abierto que se considera la mejor alternativa a GPT-3. Está entrenado en 176 mil millones de parámetros, que es mil millones más que GPT-3 y requirió 384 tarjetas gráficas para el entrenamiento, cada una con una memoria de más de 80 gigabytes.

Chinchilla Un modelo desarrollado por DeepMind y promocionado como el asesino GPT-3, Chinchilla es justo el modelo que necesita. Se basa en 70 mil millones de parámetros pero con cuatro veces más datos. Ahora, hay un hecho interesante a tener en cuenta sobre esta alternativa GPT-3: este modelo superó a Gopher, GPT-3, Jurassic-1 y Megatron-Turing NLG en varias tareas de evaluación posteriores. ¿Puede haber algo mejor? Además, requiere una potencia informática muy inferior para el ajuste fino y la inferencia.

Gopher Otra innovación de DeepMind es Gopher con 280 mil millones de parámetros. Este modelo tiene una experiencia en responder preguntas de ciencia y humanidades mucho mejor que otros idiomas. Hay más: DeepMind afirma que Gopher puede vencer a los modelos de lenguaje 25 veces su tamaño y competir con los problemas de razonamiento lógico con GPT-3. Bueno, esto es definitivamente algo que esperar. ¿Aceptar?

BERT Se debe agradecer a Google por idear una técnica basada en redes neuronales para el pre-entrenamiento de PNL. ¿Resultado? Bueno, BERT lo es. Significa Representaciones de codificador bidireccional de transformadores. Esta alternativa GPT-3 tiene dos versiones: Bert Base que usa 12 capas de transformadores de bloque de transformadores y 110 millones de parámetros entrenables, mientras que Bert Large usa 24 capas y 340 millones de parámetros entrenables.

AlexaTM Amazon no se queda atrás cuando se trata de explorar tecnología. En la misma línea, ha presentado su gran modelo de lenguaje con 20 mil millones de parámetros: AlexaTM. Alexa Teacher Models (AlexaTM 20B) es un modelo de lenguaje seq-2-seq con capacidades SOTA para el aprendizaje de pocas tomas. Lo que lo hace diferente de los demás es que tiene un codificador y un decodificador para aumentar el rendimiento de la traducción automática.

GLaM Otro invento de Google que merece una mención especial es GLaM. Es un modelo de mezcla de expertos (MoE), lo que significa que consta de diferentes submodelos que se especializan en diferentes entradas. Además de todo esto, también es uno de los modelos más grandes disponibles con 1,2 billones de parámetros en 64 expertos por capa MoE. Durante la inferencia, el modelo solo activa 97 mil millones de parámetros por predicción de token.

Generación de lenguaje natural Megatron-Turing (NLG) La colaboración también parece haber hecho maravillas para el dominio GPT-3. Una de esas colaboraciones es la de NVIDIA y Microsoft. Esta colaboración resultó en la creación de los modelos de lenguaje más grandes con 530 mil millones de parámetros. El modelo se entrenó en la supercomputadora Selene basada en NVIDIA DGX SuperPOD y es uno de los modelos en inglés más potentes.

PaLM, otro modelo de lenguaje desarrollado por Google, está entrenado en 540 mil millones de parámetros. Esto se ha convertido en un modelo de transformador denso de solo decodificador entrenado con el sistema Pathways. Es el primero que usó el sistema Pathways para entrenar modelos a gran escala con chips 6144, además de ser la configuración basada en TPU más grande. Lo que diferencia a PaLM del resto es el hecho de que el modelo superó 28 de las 29 tareas de PNL en inglés en comparación con otros modelos.

LaMDA Google ideó LaMDA, un modelo con 137 mil millones de parámetros, que ha supuesto una revolución en el mundo del procesamiento del lenguaje natural. Fue construido ajustando un grupo de modelos de lenguaje neuronal basados en Transformer. En lo que respecta al entrenamiento previo del modelo, el equipo creó un conjunto de datos de 1,5 billones de palabras, 40 veces más que los modelos desarrollados anteriormente. LaMDA ya se ha utilizado para el aprendizaje de tiro cero, la síntesis de programas y el taller de BIG-bench.

OPT Open Pretrained Transformer (OPT) es un modelo de lenguaje, otra alternativa líder de GPT-3 con 175 mil millones de parámetros. OPT está capacitado en conjuntos de datos disponibles abiertamente que permiten una mayor participación de la comunidad. El lanzamiento viene con los modelos preentrenados junto con el código para el entrenamiento. El modelo se encuentra actualmente bajo licencia no comercial y está disponible solo para uso de investigación. El modelo se entrenó e implementó con 16 GPU NVIDIA V100, que es significativamente más bajo que otros modelos

Sin usted, esta web no existiria. Gracias por visitarme, espero que le haya gustado y vuelva. Muchas gracias ☺️

Fecha actualización el 2023-02-15. Fecha publicación el 2023-02-15. Autor: Oscar olg Mapa del sitio Fuente: analyticsinsight