Desde la pista de datos de IA, observamos el potencial de desarrollo de DataFi
El mundo actual se encuentra en una era de competencia global para construir los mejores modelos fundamentales. Aunque la capacidad de cómputo y la arquitectura del modelo son importantes, la verdadera ventaja competitiva radica en los datos de entrenamiento. Este artículo comenzará con Scale AI y explorará el potencial de la pista de datos de IA.
El camino del éxito de Scale AI
Scale AI actualmente tiene una valoración de 29 mil millones de dólares, y sus clientes incluyen al ejército de EE. UU. y varias grandes empresas de IA competidoras. El negocio principal de Scale AI es proporcionar grandes cantidades de datos de etiquetado precisos, y su capacidad para destacarse entre los numerosos unicornios se debe a que reconoció temprano la importancia de los datos en la industria de la IA.
La potencia de cálculo, los modelos y los datos son los tres pilares de los modelos de IA. En el rápido desarrollo de los grandes modelos de lenguaje, el enfoque de la industria ha pasado de los modelos a la potencia de cálculo. Hoy en día, la mayoría de los modelos han establecido el transformer como su marco, y los grandes líderes han solucionado el problema de la potencia de cálculo mediante la construcción de clústeres de supercomputación o firmando acuerdos a largo plazo con proveedores de servicios en la nube. En este contexto, la importancia de los datos ha comenzado a resaltar.
Scale AI no solo se dedica a extraer datos existentes, sino que también dirige su atención hacia un negocio de generación de datos a más largo plazo. Forma equipos de entrenamiento de IA compuestos por expertos humanos de diferentes campos para proporcionar datos de entrenamiento de mayor calidad para el entrenamiento de modelos de IA.
Las dos fases del entrenamiento del modelo de IA
El entrenamiento de los modelos de IA se divide en dos partes: preentrenamiento y ajuste fino.
La fase de preentrenamiento es similar al proceso de aprendizaje del habla de un bebé humano. Necesitamos proporcionar al modelo de IA una gran cantidad de información, como textos y códigos extraídos de internet, para que el modelo adquiera habilidades básicas de comunicación a través del autoaprendizaje.
La etapa de ajuste fino es similar a la educación escolar, con respuestas y direcciones claras de correcto e incorrecto. A través de algunos conjuntos de datos procesados previamente y específicos, podemos entrenar al modelo para que posea habilidades particulares.
Por lo tanto, los datos necesarios para el entrenamiento de IA se dividen en dos categorías:
Grandes cantidades de datos que no requieren mucho procesamiento, generalmente provienen de datos de arañas de plataformas UGC grandes, bases de datos de literatura pública, bases de datos privadas de empresas, etc.
Se necesita un diseño y selección de datos detallados, similar a un libro de texto profesional, que requiere trabajo de limpieza de datos, selección, etiquetado, retroalimentación manual, entre otros.
Estas dos categorías de conjuntos de datos constituyen el cuerpo principal de la pista de datos de IA. A medida que se mejora la capacidad del modelo, diversos conjuntos de datos de entrenamiento más finos y especializados se convertirán en factores clave que influyen en la capacidad del modelo.
Web3 DataFi: Un terreno fértil ideal para los datos de IA
En comparación con los métodos tradicionales de procesamiento de datos, Web3 tiene ventajas inherentes en el campo de los datos de IA, lo que ha dado lugar al nuevo concepto de DataFi. Las ventajas de Web3 DataFi se reflejan principalmente en los siguientes aspectos:
La soberanía de los datos, la seguridad y la privacidad garantizadas por contratos inteligentes
La ventaja del arbitraje geográfico que ofrece la arquitectura distribuida
Ventajas claras de incentivos y liquidaciones en blockchain
Contribuye a construir un mercado de datos "de una sola parada" más eficiente y abierto.
Para los usuarios comunes, DataFi es el proyecto de IA descentralizada más fácil de participar. Los usuarios no necesitan firmar contratos complejos ni invertir en hardware costoso, solo deben participar a través de tareas simples, como proporcionar datos, evaluar modelos, utilizar herramientas de IA para realizar creaciones sencillas, etc.
Proyectos potenciales de Web3 DataFi
Actualmente, varios proyectos de Web3 DataFi han recibido grandes financiamientos, lo que muestra el enorme potencial de este campo. A continuación, algunos proyectos representativos:
Sahara AI: Se dedica a construir una superinfraestructura y un mercado de negociación de IA descentralizada.
Yupp: plataforma de retroalimentación de modelos de IA, recopila comentarios de los usuarios sobre el contenido de salida del modelo.
Vana: convierte los datos personales del usuario en activos digitales monetizables.
Chainbase: Enfocado en datos en cadena, cubriendo más de 200 blockchains.
Sapien: tiene como objetivo transformar el conocimiento humano a gran escala en datos de entrenamiento de IA de alta calidad.
Prisma X: Se dedica a convertirse en la capa de coordinación abierta para robots, la recolección de datos físicos es clave.
Masa: Proyecto de subred principal del ecosistema Bittensor, opera la subred de datos y la subred de agentes.
Irys: enfocado en el almacenamiento y cálculo de datos programables.
ORO: Empoderar a las personas comunes para participar en la contribución de IA.
Gata: Se posiciona como una capa de datos descentralizada, ofreciendo múltiples formas de participación.
Reflexiones sobre el proyecto actual
En la actualidad, las barreras de estos proyectos no son generalmente altas, pero una vez que se acumulan usuarios y una adherencia ecológica, las ventajas de la plataforma se acumularán rápidamente. Por lo tanto, los proyectos en etapas tempranas deben centrarse en los incentivos y la experiencia del usuario.
Al mismo tiempo, estas plataformas de datos también necesitan considerar cómo gestionar el trabajo humano, garantizar la calidad de la producción de datos y evitar la aparición del fenómeno de la mala moneda expulsando a la buena. Algunos proyectos como Sahara y Sapien ya han comenzado a fortalecer la gestión en términos de calidad de datos.
Además, aumentar la transparencia es también un problema importante al que se enfrentan los proyectos en la cadena actualmente. Muchos proyectos aún carecen de datos públicos y trazables suficientes, lo que es perjudicial para el desarrollo saludable a largo plazo de Web3 DataFi.
Por último, la adopción masiva de DataFi necesita atraer a un número suficiente de participantes individuales y obtener el reconocimiento de empresas convencionales. Algunos proyectos como Sahara AI y Vana han logrado un buen avance en este aspecto.
DataFi representa la relación de coexistencia a largo plazo entre la inteligencia humana y la inteligencia de las máquinas. Para aquellos que están llenos de expectativas y preocupaciones sobre la era de la IA, participar en DataFi es una buena elección que se alinea con las tendencias.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
15 me gusta
Recompensa
15
4
Compartir
Comentar
0/400
ReverseFOMOguy
· hace6h
Ya se está hablando de DataFi nuevamente.
Ver originalesResponder0
CryptoCross-TalkClub
· hace6h
Ah, finalmente comenzamos a tomar a la gente por tonta con la IA, la última vez fue el Metaverso, esta vez viene otra historia.
Ver originalesResponder0
ParanoiaKing
· hace6h
¿Los datos de entrenamiento también se pueden enrollar?
DataFi: Nuevas oportunidades en la era de la IA. Cómo Web3 lidera la carrera de los datos.
Desde la pista de datos de IA, observamos el potencial de desarrollo de DataFi
El mundo actual se encuentra en una era de competencia global para construir los mejores modelos fundamentales. Aunque la capacidad de cómputo y la arquitectura del modelo son importantes, la verdadera ventaja competitiva radica en los datos de entrenamiento. Este artículo comenzará con Scale AI y explorará el potencial de la pista de datos de IA.
El camino del éxito de Scale AI
Scale AI actualmente tiene una valoración de 29 mil millones de dólares, y sus clientes incluyen al ejército de EE. UU. y varias grandes empresas de IA competidoras. El negocio principal de Scale AI es proporcionar grandes cantidades de datos de etiquetado precisos, y su capacidad para destacarse entre los numerosos unicornios se debe a que reconoció temprano la importancia de los datos en la industria de la IA.
La potencia de cálculo, los modelos y los datos son los tres pilares de los modelos de IA. En el rápido desarrollo de los grandes modelos de lenguaje, el enfoque de la industria ha pasado de los modelos a la potencia de cálculo. Hoy en día, la mayoría de los modelos han establecido el transformer como su marco, y los grandes líderes han solucionado el problema de la potencia de cálculo mediante la construcción de clústeres de supercomputación o firmando acuerdos a largo plazo con proveedores de servicios en la nube. En este contexto, la importancia de los datos ha comenzado a resaltar.
Scale AI no solo se dedica a extraer datos existentes, sino que también dirige su atención hacia un negocio de generación de datos a más largo plazo. Forma equipos de entrenamiento de IA compuestos por expertos humanos de diferentes campos para proporcionar datos de entrenamiento de mayor calidad para el entrenamiento de modelos de IA.
Las dos fases del entrenamiento del modelo de IA
El entrenamiento de los modelos de IA se divide en dos partes: preentrenamiento y ajuste fino.
La fase de preentrenamiento es similar al proceso de aprendizaje del habla de un bebé humano. Necesitamos proporcionar al modelo de IA una gran cantidad de información, como textos y códigos extraídos de internet, para que el modelo adquiera habilidades básicas de comunicación a través del autoaprendizaje.
La etapa de ajuste fino es similar a la educación escolar, con respuestas y direcciones claras de correcto e incorrecto. A través de algunos conjuntos de datos procesados previamente y específicos, podemos entrenar al modelo para que posea habilidades particulares.
Por lo tanto, los datos necesarios para el entrenamiento de IA se dividen en dos categorías:
Grandes cantidades de datos que no requieren mucho procesamiento, generalmente provienen de datos de arañas de plataformas UGC grandes, bases de datos de literatura pública, bases de datos privadas de empresas, etc.
Se necesita un diseño y selección de datos detallados, similar a un libro de texto profesional, que requiere trabajo de limpieza de datos, selección, etiquetado, retroalimentación manual, entre otros.
Estas dos categorías de conjuntos de datos constituyen el cuerpo principal de la pista de datos de IA. A medida que se mejora la capacidad del modelo, diversos conjuntos de datos de entrenamiento más finos y especializados se convertirán en factores clave que influyen en la capacidad del modelo.
Web3 DataFi: Un terreno fértil ideal para los datos de IA
En comparación con los métodos tradicionales de procesamiento de datos, Web3 tiene ventajas inherentes en el campo de los datos de IA, lo que ha dado lugar al nuevo concepto de DataFi. Las ventajas de Web3 DataFi se reflejan principalmente en los siguientes aspectos:
Para los usuarios comunes, DataFi es el proyecto de IA descentralizada más fácil de participar. Los usuarios no necesitan firmar contratos complejos ni invertir en hardware costoso, solo deben participar a través de tareas simples, como proporcionar datos, evaluar modelos, utilizar herramientas de IA para realizar creaciones sencillas, etc.
Proyectos potenciales de Web3 DataFi
Actualmente, varios proyectos de Web3 DataFi han recibido grandes financiamientos, lo que muestra el enorme potencial de este campo. A continuación, algunos proyectos representativos:
Sahara AI: Se dedica a construir una superinfraestructura y un mercado de negociación de IA descentralizada.
Yupp: plataforma de retroalimentación de modelos de IA, recopila comentarios de los usuarios sobre el contenido de salida del modelo.
Vana: convierte los datos personales del usuario en activos digitales monetizables.
Chainbase: Enfocado en datos en cadena, cubriendo más de 200 blockchains.
Sapien: tiene como objetivo transformar el conocimiento humano a gran escala en datos de entrenamiento de IA de alta calidad.
Prisma X: Se dedica a convertirse en la capa de coordinación abierta para robots, la recolección de datos físicos es clave.
Masa: Proyecto de subred principal del ecosistema Bittensor, opera la subred de datos y la subred de agentes.
Irys: enfocado en el almacenamiento y cálculo de datos programables.
ORO: Empoderar a las personas comunes para participar en la contribución de IA.
Gata: Se posiciona como una capa de datos descentralizada, ofreciendo múltiples formas de participación.
Reflexiones sobre el proyecto actual
En la actualidad, las barreras de estos proyectos no son generalmente altas, pero una vez que se acumulan usuarios y una adherencia ecológica, las ventajas de la plataforma se acumularán rápidamente. Por lo tanto, los proyectos en etapas tempranas deben centrarse en los incentivos y la experiencia del usuario.
Al mismo tiempo, estas plataformas de datos también necesitan considerar cómo gestionar el trabajo humano, garantizar la calidad de la producción de datos y evitar la aparición del fenómeno de la mala moneda expulsando a la buena. Algunos proyectos como Sahara y Sapien ya han comenzado a fortalecer la gestión en términos de calidad de datos.
Además, aumentar la transparencia es también un problema importante al que se enfrentan los proyectos en la cadena actualmente. Muchos proyectos aún carecen de datos públicos y trazables suficientes, lo que es perjudicial para el desarrollo saludable a largo plazo de Web3 DataFi.
Por último, la adopción masiva de DataFi necesita atraer a un número suficiente de participantes individuales y obtener el reconocimiento de empresas convencionales. Algunos proyectos como Sahara AI y Vana han logrado un buen avance en este aspecto.
DataFi representa la relación de coexistencia a largo plazo entre la inteligencia humana y la inteligencia de las máquinas. Para aquellos que están llenos de expectativas y preocupaciones sobre la era de la IA, participar en DataFi es una buena elección que se alinea con las tendencias.