IT House publicó un artículo hoy que indica que el volumen de montón ciego del modelo de IA en realidad no es necesariamente mejor. Depende más de la calidad de los datos de entrenamiento. Microsoft lanzó recientemente un modelo de lenguaje phi-1 con 1.300 millones de parámetros. , usando entrenamiento de conjunto de datos de alta calidad de "Nivel de libro de texto", se dice que "el efecto real es mejor que GPT 3.5 con 100 mil millones de parámetros". El modelo se basa en la arquitectura de Transformer, y el equipo de Microsoft usó datos de "grado de libro de texto" de la web y "contenido lógicamente riguroso" procesado con GPT-3.5, así como ocho GPU Nvidia A100, para completar el entrenamiento en solo 4 dias El equipo de Microsoft dijo que, en lugar de aumentar la cantidad de parámetros del modelo, mejorar la calidad del conjunto de datos de entrenamiento del modelo puede mejorar la precisión y la eficiencia del modelo. Por lo tanto, usaron datos de alta calidad para entrenar el modelo phi-1. . En la prueba, la puntuación de phi-1 alcanzó el 50,6 %, mejor que GPT-3,5 (47 %) con 175 000 millones de parámetros. Microsoft también declaró que phi-1 será de código abierto en HuggingFace a continuación, y esta no es la primera vez que Microsoft desarrolla un LLM pequeño. Anteriormente, crearon un Orca de 13 mil millones de parámetros, que fue entrenado usando datos sintéticos GPT-4. El el rendimiento también es mejor que ChatGPT.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
IT House publicó un artículo hoy que indica que el volumen de montón ciego del modelo de IA en realidad no es necesariamente mejor. Depende más de la calidad de los datos de entrenamiento. Microsoft lanzó recientemente un modelo de lenguaje phi-1 con 1.300 millones de parámetros. , usando entrenamiento de conjunto de datos de alta calidad de "Nivel de libro de texto", se dice que "el efecto real es mejor que GPT 3.5 con 100 mil millones de parámetros". El modelo se basa en la arquitectura de Transformer, y el equipo de Microsoft usó datos de "grado de libro de texto" de la web y "contenido lógicamente riguroso" procesado con GPT-3.5, así como ocho GPU Nvidia A100, para completar el entrenamiento en solo 4 dias El equipo de Microsoft dijo que, en lugar de aumentar la cantidad de parámetros del modelo, mejorar la calidad del conjunto de datos de entrenamiento del modelo puede mejorar la precisión y la eficiencia del modelo. Por lo tanto, usaron datos de alta calidad para entrenar el modelo phi-1. . En la prueba, la puntuación de phi-1 alcanzó el 50,6 %, mejor que GPT-3,5 (47 %) con 175 000 millones de parámetros. Microsoft también declaró que phi-1 será de código abierto en HuggingFace a continuación, y esta no es la primera vez que Microsoft desarrolla un LLM pequeño. Anteriormente, crearon un Orca de 13 mil millones de parámetros, que fue entrenado usando datos sintéticos GPT-4. El el rendimiento también es mejor que ChatGPT.