Portada » ¿Atascado en la lista de espera de GPT-3? Prueba el AI21 Jurassic-1
Tecnología

¿Atascado en la lista de espera de GPT-3? Prueba el AI21 Jurassic-1

¿Atascado en la lista de espera de GPT-3?  Prueba el AI21 Jurassic-1

En enero de 2020, OpenAI introdujo la ley del tamaño del modelo de lenguaje: puede mejorar el rendimiento de cualquier modelo de lenguaje neuronal agregando más datos de entrenamiento, más parámetros de modelo y más cálculo. Desde entonces, ha habido una carrera armamentista para entrenar redes neuronales cada vez más grandes para el procesamiento del lenguaje natural (NLP). Y el último en unirse a la lista es el AI21, con su modelo de 178 mil millones de parámetros.

Experiencia y equipo fundador de AI21

AI21 es una empresa israelí fundada en 2017 por Yoav Shoham, Ori Goshen y Amnon Sashua. Antes de eso, Amnon fundó Mobileye, la empresa de tecnología independiente que cotiza en la Bolsa de Nueva York y que Intel adquirió por $ 15,4 mil millones. Después de esconderse durante años, AI21 lanzó su primer producto, Wordtune, en 2020 para ayudar a las personas a escribir mejor.

El mes pasado, la compañía anunció que había entrenado y lanzado dos modelos principales de PNL, Jurassic-1 Large y Jurrasic-1 Jumbo, a través de una interfaz de usuario web interactiva llamada AI21 Studio.

A diferencia del acceso beta cerrado de OpenAI, AI21 hace que sus modelos estén disponibles para que cualquiera los pruebe, sin lista de espera.

Tamaños de modelos y parámetros de rendimiento

Hay modelos más grandes, como el chino Wu Dao 2.0, que es 10 veces el tamaño, con 1,75 billones de parámetros. Pero el AI21 J-1 Jumbo es el modelo de idioma inglés más grande disponible para el público en general hasta ahora.

Leyenda: Tamaños de los parámetros de GPT-3 según lo estimado aquí, GPT-Neo según lo informado por EleutherAI, J-1 según lo informado por AI21. * indica que los modelos son de código abierto.

El rendimiento del modelo zero-shot en los puntos de referencia conocidos para el J-1 Jumbo está a la par con el GPT-3 Davinci, el modelo OpenAI GPT-3 más grande. “Disparo cero” es cuando el modelo no recibe ningún aviso especial y no está configurado para ningún tipo de datos de entrenamiento específico de la tarea. Leyenda: Comparación de puntos de referencia Zero Shot según lo informado por AI21.

Ejemplos de

En un artículo anterior, miré varios ejemplos para mostrar el desempeño de GPT-Neo en el mundo real. Examinemos el rendimiento de los modelos AI21 en la práctica.

Conclusión del hecho. Comencemos por hacerle a Jurassic-1 algunas preguntas básicas de conocimiento general. Mis instrucciones para el modelo se proporcionan en Itálico y la respuesta del modelo en negrita.

¿Cuántas medallas ganó Estados Unidos en los Juegos Olímpicos de 2012? 104
##
¿Cuántas medallas de oro ha ganado Estados Unidos en los Juegos Olímpicos de 2016? 46
##

¡Esta es la respuesta correcta!

Lo que se destacó:

  1. La plantilla es lo suficientemente inteligente como para descubrir qué queremos decir con “oro” en la pregunta, mientras que el mensaje habla de medallas.
  2. ¡El J-1 Jumbo 178B golpea, pero el J-1 Large 7.5B no lo hace!
  3. Intentar la misma pregunta con los Juegos Olímpicos de 2021 no funciona (probablemente porque el modelo no se entrena continuamente con nuevos datos).

¡Peligro neuronal! Yendo un paso más allá, ¿qué tal un diálogo de preguntas y respuestas al estilo Jeopardy? Gracias a la gente de Water Cooler Trivia (WCT), ya tenemos un conjunto de preguntas y respuestas, un punto de referencia humano y un punto de referencia para GPT-3.

Al analizar las 157 preguntas del WCT en el estilo Jeopardy, el modelo J-1 Jumbo pudo responder con un 55,4% de precisión. Esto se compara favorablemente con el promedio del 52% de humanos que tomaron el WCT. Sin embargo, es significativamente peor que la tasa de precisión del 73% del GPT-3.

En cuestiones “fáciles”, el J-1 Jumbo fue tres veces peor que el GPT-3. Entre las 58 preguntas que respondieron bien más del 90% de los participantes humanos, GPT-3 se equivocó 4 veces, pero J-1 se equivocó 12 veces.

Estas son algunas de las preguntas que el GPT-3 hizo bien, pero el Jurassic-1 Jumbo no lo hizo:

P: Originalmente se llamaban Baby Gays. Luego le cambiaron el nombre de Q-Tips, con la Q significando ¿qué palabra de alto nivel?
GPT-3: Calidad
AI21: dormitorios

Q: Embora a música mais popular da trilha sonora do filme seja “This Is Halloween” e o nome do personagem principal seja Jack Skellington, o clássico filme cult de Tim Burton de 1993 que foi indicado ao Oscar de efeitos visuais inclui OUTRAS férias no título de la película ?
GPT-3: la pesadilla antes de Navidad
AI21: SUEÑO HUECO. La película de 1999 protagonizada por Johnny Depp, Christina Ricci, Miranda Richardson, Casper

A medida que las preguntas se volvieron más difíciles, los dos modelos funcionaron de manera similar. Entre las 20 preguntas más difíciles, GPT3 se equivocó 13 veces y Jurassic-1 se equivocó 14 veces. Y nueve de las respuestas incorrectas de ambos modelos eran iguales, es decir, ¡los modelos estaban equivocados de la misma manera!

P: Spoonerismo: dos pares de palabras con los primeros sonidos o letras intercambiadas, como cuervo ruborizado y golpe aplastante. ¿Qué spoilerismo describe estos dos objetos? Un animal falso y una comida grande al horno.
GPT-3: Un animal falso y una comida grande al horno.
AI21: (1) Un animal falso y una comida grande cocinada en un horno. (2) Un ánima falsa
respuesta correcta: fingir bestia

P: ¿Mario López fue el anfitrión de las primeras siete temporadas de qué programa de competencia de baile de 2008 a 2012?
GPT-3: bailando con las estrellas
AI21: Bailando con las estrellas.
Respuesta correcta: el mejor equipo de baile de América.

El modelo J-1 a veces pensaba en sí mismo en un programa de juegos, lo que lleva a conclusiones divertidas que encajarían perfectamente en el guión de un programa de juegos. (Dio la segunda respuesta incorrecta después del redoble de tambores):

P: ¿Qué juego de cartas “spill” ha sido una marca de Mattel desde 1992 y presenta cartas con títulos como “Wild” y “Reverse?
AI21: ¡UNO! ¡UNO! ¡UNO! ¡UNO! ¡UNO! ¡UNO! ¡UNO!
Respuesta correcta: una

P: En la última versión de Rolling Stone de los mejores guitarristas de todos los tiempos, el número 5 era un hombre con un nombre y apellido monosilábicos. Este hombre fue uno de los tres guitarristas de The Yardbirds y ha pasado décadas explorando sonidos de guitarra innovadores. ¿Quién es él?
A21: (redoble de tambores, por favor) Eric Clapton
Respuesta correcta: Jeff Beck

Posible razón del bajo rendimiento del J1-Jumbo

Hice algunas modificaciones al experimento (algunas con las preguntas y respuestas de GPT-3 y otras sin ellas) y los mejores puntos de referencia de puntuación para J1-Jumbo fueron de una “configuración de disparo cero”. Sin embargo, los números de GPT-3 que se informan aquí provienen de una configuración de “solo unos momentos” con un mensaje de ejemplo proporcionado por OpenAI.

“Disparo cero” es cuando el modelo no recibe ningún aviso especial, y “disparos pocos” es cuando se le da un aviso de ejemplo al modelo que muestra la tarea. Un ejemplo de un mensaje en este caso sería un grupo de pares aleatorios de preguntas y respuestas. Esto ayuda al modelo a comprender la tarea que intenta realizar, es decir, responder la pregunta.

El mensaje de preguntas y respuestas utilizado para la prueba comparativa GPT-3 probablemente se ajustó y diseñó para un rendimiento óptimo con los modelos GPT-3, pero todavía no existe un mensaje de preguntas y respuestas ajustado “oficial” para los modelos AI21. Diseñar un mensaje que compita con el punto de referencia GPT-3 no parece una tarea trivial. Noté que la salida generada era sensible a cambios aparentemente triviales en el texto del mensaje, como una línea vacía al principio del mensaje o un espacio adicional al final de cada línea en el mensaje. Con suerte, el AI21 lanzará un conjunto exhaustivo de indicaciones de “mejor rendimiento” para ayudar a mitigar esto.

Puede explorar una comparación detallada del modelo, la configuración del experimento y los datos sin procesar aquí.

escritura creativa

Ahora veamos cómo le va al modelo cuando se trata de escritura creativa. Elegí una tarea algo difícil: un artículo de Twitter de época escrito como el difunto Jerome K. Jerome. Mario Klingemann probó este mensaje primero con GPT-3, y puede ver la respuesta de GPT-3 en este tema.

A continuación se muestra la respuesta del AI21 J-1 Jumbo (178B). Nuevamente, el texto de entrada está en cursiva y la respuesta de J-1 está en negrita:

La importancia de estar en twitter
por Jerome K. Jerome
Londres, verano de 1897

EstaEs posible que haya confundido la secuencia de eventos.
Habiendo aprendido los rudimentos de twitter, continué,
y pronto me encontré moviéndome entre las bandas de Twitter.

Inmediatamente reconocí que estas personas eran diferentes de
aquellos que conocí antes. Fueron llamados “tuiteros” y
tuitearon. Eso es todo lo que sabía de ellos.

Tuitearon y tuitearon.

Al principio yo también tuiteé. Pero pronto descubrí que yo
no podía vivir simplemente twitteando, y además,
el chirrido interfirió con los asuntos serios de la vida.

Entonces, habiendo asegurado primero la buena voluntad del pueblo
que me conocía antes, comencé a buscar algunos
nueva forma de vida. Y cuando conocí a un hombre bien vestido
y elegante, con un puro en la boca y un reloj de oro
cadena en tu chaleco, y una lente en tu
ojo, le dije: “Señor, ¿a qué te dedicas?”
Dijo: “Soy un caballero profesional”.
Le dije: “¿Qué, señor, se considera un caballero?”
Dijo: “Soy abogado”.

También probé este mensaje con la plantilla J1-Large 7.5B. Después de algunos intentos, la modelo dio lo que, en mi opinión, es una pieza genuinamente creativa:

La importancia de estar en twitter
por Jerome K. Jerome
Londres, verano de 1897

EstaEs domingo y estamos tomando el té.
“Supongo”, dije, “que estás tuiteando”.
“Oh, sí”, dice ella, “twitteo todo el tiempo.
“Twitteo sobre el clima,
“Twitteo sobre personas,
“Twitteo sobre libros,
“Twitteo sobre política,
“Twitteo sobre arte
“Twitteo sobre cualquier cosa y todo

La pieza me pareció impresionante porque logró escribir en un lenguaje anticuado en una prosa rítmica que logró preservar el tema general de las redes sociales.

Cómo probar Jurassic-1

A diferencia de GPT-3, Jurassic-1 es accesible para todos. Puede acceder a él desde AI21 Studio (la creación de una cuenta requiere la autenticación del número de teléfono).

El nivel gratuito permite 10,000 tokens por día para el modelo Jurassic-1 178B y tres veces más para el modelo más pequeño Jurassic-1 7.5B. Eso es suficiente para intentar usar la interfaz de usuario web, pero no lo suficiente para usar la API para ejecutar cualquier tipo de prueba o punto de referencia.

AI21 comercializará sus modelos a través de una oferta llamada AI21 Studio, que actualmente se encuentra en “beta abierta limitada”. La compañía aún no ha anunciado un modelo de precios para este uso comercial.

el final resulto

Los problemas relacionados con la seguridad, la ética y los sesgos de la IA han sido motivo de preocupación con los modelos de lenguaje neuronal y continúan existiendo en los modelos de IA21. Dejando de lado estos problemas por el momento, los modelos AI21 parecen ser un reemplazo prometedor para el GPT-3. Sin embargo, se quedan atrás en algunos frentes:

  1. No tienen la capacidad de utilizar plantillas especializadas como “GPT-3 davinci-instruct”, lo que anima al GPT-3 a seguir las instrucciones dadas como avisos o el “código GPT-3” especializado en la escritura de código.
  2. El ecosistema “rápido” aún no está tan maduro como el GPT-3. Muchas de las solicitudes de GPT-3 no se traducen directamente a AI21, y aún no está disponible una lista “oficial” exhaustiva de solicitudes.
  3. La cuota de tokens gratuitos de AI21 es muy restrictiva y aún no se han anunciado precios basados ​​en el uso. Esto dificulta la ejecución de evaluaciones comparativas o la ingeniería inmediata. Aún así, puede escribirles con una explicación del requisito y estarán encantados de aumentar la cuota (como lo hicieron conmigo).

Sin embargo, es demasiado pronto para AI21. Con el tiempo, podemos esperar que los modelos de lenguaje AI21 sean una alternativa viable a los modelos de lenguaje OpenAI.

Abhishek Iyer es el fundador de FreeText AI, una empresa especializada en minería de texto y análisis de corrección de pruebas de Amazon..

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)

Añadir comentario

Haz clic para publicar un comentario