Al vencer a toda la familia de las alpacas, el nuevo método de autoalineación Meta AI requiere muy pocos datos de etiquetado manual

Fuente original: Qubit

¿Es urgente etiquetar manualmente los datos?

El nuevo método de Mata crea un modelo de lenguaje de seguimiento de instrucciones (seguimiento de instrucciones) de alta calidad con solo una pequeña cantidad de datos iniciales.

En otras palabras, los modelos de lenguaje grandes requieren una gran cantidad de datos de instrucciones etiquetados por humanos para su ajuste, pero ahora el modelo puede inferir automáticamente instrucciones a partir de texto sin etiquetar en corpus web.

Luego, use los datos de instrucción generados por usted mismo para el entrenamiento, que es comparable a la producción y venta propias.

Y el modelo entrenado por este método supera a la alpaca de código abierto y su serie de modelos derivados en la prueba comparativa de Alpaca.

LeCun tuiteó que el estudio fue sensacional en términos de autoalineación del modelo:

Para resumirlo en una oración de un internauta:

La alpaca empezó a entrenarse sola.

Las dos oraciones lo resumen así:

Conjunto de datos de instrucción>respuesta originalmente requerido (requiere etiquetado manual), ahora solo es necesario entrenar un "modelo inverso" para la instrucción de respuesta>. Cualquier texto se puede convertir libremente en un conjunto de datos de instrucciones.

Otro internauta emitió una tortura del alma:

¿Soy el único que piensa que esto parece el camino hacia la superinteligencia? Si puede obtener LLM que se vuelven cada vez más inteligentes sin datos externos adicionales de alta calidad, entonces este es un sistema cerrado de mejora automática. Tal vez solo se necesita un sistema de aprendizaje por refuerzo para proporcionar la señal, y luego las propias iteraciones del LLM pueden hacer el resto.

Alpaca: usé datos para entrenar a una ballena

Este nuevo método escalable se llama Traducción inversa de instrucciones, y Mata nombró al modelo entrenado por este método-Humpback (ballena jorobada, también conocida como ballena jorobada).

(Los investigadores dijeron que el nombre se le dio por su relación con el lomo del camello, y el tamaño más grande de la ballena corresponde a una escala más grande del modelo)

El paso de entrenar a un jorobado es simplemente comenzar con una pequeña cantidad de datos etiquetados, usar el modelo de lenguaje para generar instrucciones correspondientes al texto no etiquetado y formar datos de entrenamiento de candidatos. Luego use el modelo para evaluar la calidad de los datos y seleccione datos de alta calidad para volver a entrenar. Luego se repite el proceso para mejorar aún más el modelo.

Como se muestra en la figura anterior, los "materiales" que deben prepararse son:

  • Un modelo base - LLaMa
  • Un dato inicial (Seed Data) compuesto por 3200 ejemplos del conjunto de datos de Open Assistant, cada ejemplo incluye una instrucción y la salida correspondiente.
  • Del corpus ClueWeb, se han eliminado 502 000 textos sin etiquetar (datos sin etiquetar) que han sido desduplicados, filtrados y párrafos potencialmente de baja calidad.

Los ejemplos etiquetados y las fuentes del corpus están disponibles y el siguiente paso es la etapa de aumento automático.

Los investigadores ajustaron el modelo básico LLaMa con los datos iniciales para obtener el modelo de predicción de instrucciones. Este modelo de predicción de instrucciones se usa luego para inferir una instrucción candidata para el texto sin etiquetar. Luego, combine la instrucción y el texto candidatos (par instrucción-salida) como un candidato datos de entrenamiento mejorados, que son los datos aumentados A en la figura anterior.

Sin embargo, no es posible usar los datos de A para el entrenamiento directo, porque la calidad del texto sin etiqueta en sí es desigual y las instrucciones candidatas generadas también tienen ruido.

Por lo tanto, se necesitan los pasos clave de autocuración, usar el modelo para predecir la calidad de los datos y seleccionar muestras de alta calidad para el entrenamiento.

Específicamente, los investigadores calificaron los datos de los candidatos utilizando un modelo de instrucción ajustado solo en los datos iniciales. El puntaje total es de cinco puntos, y aquellos con puntajes más altos serán seleccionados como datos candidatos para la siguiente ronda.

Para mejorar la calidad de la predicción de instrucción del modelo, los investigadores entrenaron el modelo con datos candidatos iterativos, y en el entrenamiento iterativo, la calidad de los datos mejorará cada vez más.

Además, al combinar datos semilla y datos de aumento para ajustar el modelo, también usan diferentes etiquetas de sugerencias del sistema para distinguir entre estas dos fuentes de datos:

  • Consejos de uso de datos semilla "Responda al estilo de un asistente de IA".
  • Filtre los datos usando el mensaje "Responda con conocimiento de la búsqueda web".

Después de dos iteraciones, el modelo final está recién salido del horno.

Combina dos tipos de datos de entrenamiento: 1+1>2

Echemos un vistazo a los resultados del análisis de los investigadores:

** **###### Diversidad de instrucciones para datos semilla y datos mejorados. El círculo interior es el verbo raíz común y el círculo exterior es el sustantivo común que le corresponde.

La figura anterior muestra la diversidad de instrucciones con un 8 % de datos semilla y un 13 % de estadísticas de datos mejorados.

Se puede ver intuitivamente que la diversidad de datos mejorados es más fuerte en la parte de cola larga, y los datos mejorados complementan los datos de semillas etiquetados artificialmente existentes, complementando los tipos que no aparecen en los datos de semillas.

En segundo lugar, los investigadores compararon tres conjuntos de datos aumentados: datos aumentados, todos (sin autogestión),

, menos datos pero más calidad

Los experimentos han observado que aunque el conjunto de datos se vuelve más pequeño, el rendimiento del modelo también ha mejorado con la mejora de la calidad de los datos de entrenamiento.

** **###### Utilice el autofiltrado para evaluar datos de autoaumento de diferentes tamaños y calidades de datos. El eje y representa la tasa de ganancias con text-davinci-003 al ajustar LLaMa 7B con un tamaño y calidad de datos determinados.

(text-davinci-003, un modelo de seguimiento de instrucción basado en GPT-3 ajustado en datos de instrucción escritos por humanos, resultados, respuestas del modelo y preferencias humanas mediante el aprendizaje por refuerzo)

Finalmente, echemos un vistazo a los resultados en la tabla de posiciones de Alpaca. Humpback supera significativamente a otros métodos sin depender de datos destilados y cierra la brecha con modelos patentados.

No destilado (Non-distilled), se refiere a un modelo de formación que no se basa en ningún modelo externo como forma de supervisión; Destilado (Destilado), se refiere a la introducción de un modelo externo más potente durante el proceso de formación, como usando datos destilados de un modelo externo; Propietario se refiere a modelos entrenados usando datos y técnicas patentadas.

** **###### Comparado con la tasa de ganancias de text-davinci-003

En comparación con los modelos de código abierto LIMA 65B, Guanaco 65B, Falcon-Instruct 40B y los modelos patentados davinci-003, Claude, el rendimiento de Humpback también está más en línea con las preferencias humanas.

Además, los investigadores notaron las limitaciones del método:

Dado que los datos de texto utilizados para el entrenamiento provienen de corpus web, el modelo ajustado puede amplificar el sesgo de los datos web. Aunque en comparación con el modelo base, el modelo ajustado mejora la precisión de la detección de sesgos. Sin embargo, esto no significa que el problema se resolverá por completo.

Portal: enlace en papel)

Link de referencia: [1] [2] [3]

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)