Meta revela LLaMA 3 y explica cómo funciona su modelo de inteligencia artificial

La empresa de tecnología Meta lanzó LLaMA 3, la nueva generación de su modelo de lenguaje grande (LLM),que presenta modelos pre-entrenados y ajustados a una amplia gama de parámetros de referencia con el fin de optimizar capacidades como el razonamiento, la codificación y el seguimiento de instrucciones con inteligencia artificial.

AndinaPor:Andina28 de abril, 2024 6 minutos

Meta revela LLaMA 3 y explica cómo funciona su modelo de inteligencia artificial

LLaMA 3 presenta modelos de lenguaje pre-entrenados y ajustados a las instrucciones con 8 mil millones de parámetros (8B) y 70 mil millones de parámetros (70B),que consisten en variables internas propias del algoritmo de aprendizaje que se pueden adaptar a una amplia diversidad de casos de uso.

Con un modelo de código abierto de vanguardia, LLaMA 3 busca incorporar las devoluciones y comentarios de los desarrolladores para aumentar su utilidad general. Además, Meta adoptó la ética del código abierto de publicar rápido y con frecuencia para que la comunidad pueda acceder a estos modelos mientras aún están en desarrollo.

Los modelos basados en texto que publicó Meta son los primeros de la colección de modelos LLaMA 3. A corto plazo, el objetivo de la empresa es que este modelo de lenguaje sea multilingüe y multimodal, que tenga un contexto más amplio y que siga mejorando el rendimiento general de las capacidades básicas de LLM, como el razonamiento y la codificación.

Rendimiento de vanguardia

Los nuevos modelos LLaMa 3 de parámetros 8B y 70B suponen un gran salto con respecto a LLaMA 2, lanzada en julio de 2023, y establecen un nuevo objeto de estudio para los modelos LLM a esas escalas. Gracias a las mejoras en el pre-entrenamiento y el post-entrenamiento, el modelo de lenguaje redujo sustancialmente las tasas de falsos rechazos, mejoró la alineación y aumentó la diversidad en las respuestas de los modelos.

En el desarrollo de LLaMA 3, la empresa priorizó el rendimiento del modelo en puntos de referencia estándar y buscó optimizar el rendimiento para escenarios del mundo real. Para ello, desarrolló un nuevo conjunto de evaluación humana de alta calidad.

Este conjunto de evaluación contiene 1.800 preguntas que cubren 12 casos de uso clave: pedir consejo, lluvia de ideas, clasificación, respuesta a preguntas cerradas, codificación, escritura creativa, extracción, adopción de un personaje/persona, respuesta a preguntas abiertas, razonamiento, reescritura y resumen.

Para evitar el sobreajuste accidental de los modelos en este conjunto de evaluación, Meta ha restringido el acceso a sus propios equipos de modelización. Asimismo, para desarrollar un gran modelo lingüístico Meta adoptó una filosofía de diseño centrada en cuatro aspectos claves: la arquitectura del modelo, los datos de pre-entrenamiento, la ampliación del pre-entrenamiento y el ajuste de las instrucciones.

En ese sentido, LLaMA 3 trabaja con una arquitectura de transformador relativamente estándar de un solo descodificador, que constituye una tecnología fundamental en el campo del aprendizaje profundo y el procesamiento del lenguaje natural.

En comparación con LLaMA 2, el nuevo modelo de lenguaje introduce varias mejoras clave, como un tokenizador con un vocabulario de 128.000 tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora sustancialmente el rendimiento del modelo. Un token es una unidad indivisible o elemento básico del lenguaje, que puede ser una palabra, un número o un símbolo.

Para mejorar la eficacia de inferencia de los modelos de LLaMA 3, Meta adoptó la atención a consultas agrupadas en los tamaños 8B y 70B. Asimismo, se entrenó los modelos en secuencias de 8.192 tokens, utilizando una máscara para garantizar que la autoatención no cruce los límites del documento.

Lee también: Descubre cómo usar la inteligencia artificial de ChatGPT para aprender chino gratis

¿Con qué datos ha sido entrenado LLaMA 3?

Para entrenar el modelo lingüístico, Meta dispuso de un conjunto de datos de entrenamiento amplio y de alta calidad. De acuerdo con sus principios, invirtió en datos de pre-entrenamiento con más de 15T de tokens recogidos de fuentes públicas.

El conjunto de datos de entrenamiento fue siete veces mayor que el utilizado para LLaMA 2 e incluyó cuatro veces más códigos. Como preparación para los próximos casos de uso multilingüe, más del 5% del conjunto de datos de pre-entrenamiento de LLaMA 3 está formado por datos de alta calidad en lengua no inglesa que abarcan más de 30 idiomas. Sin embargo, la empresa no garantiza el mismo nivel de rendimiento en estos idiomas que en inglés.

Para garantizar datos de la máxima calidad en el entrenamiento de LLaMA 3, Meta desarrolló una serie de procesos de filtración de datos ,que incluyen filtros heurísticos (método de detección de virus),filtros NSFW (que bloquean el contenido que es apto sólo para adultos),enfoques de deduplicación semántica (proceso que elimina copias excesivas de datos) y clasificadores de texto para predecir la calidad de los datos.

Meta también realizó experimentos exhaustivos para evaluar las mejores formas de mezclar datos de distintas fuentes en su conjunto de datos final de pre-entrenamiento. Estos experimentos permitieron seleccionar una combinación de datos que garantizó un buen rendimiento de LLaMA 3 en distintos casos de uso, como preguntas de trivialidades, STEM, codificación, conocimientos históricos, etc.

Lee también: Descubre cómo usar la inteligencia artificial de ChatGPT para aprender inglés gratis

Ajuste de instrucciones

En caso de usos de chat y su ajuste de instrucciones Meta también innovó en su enfoque para desbloquear completamente el potencial de sus modelos pre-entrenados. Su enfoque para el post-entrenamiento es una combinación de ajuste fino supervisado (SFT),muestreo de rechazo, optimización de políticas proximales (PPO) y optimización de políticas directas (DPO).

De esta forma, se avanza en el aprendizaje por refuerzo a partir de la retroalimentación humana, la generación de observaciones a partir de una distribución, la mejora de la estabilidad del entrenamiento de la política y el control preciso de los modelos de lenguaje.

Aprender de los rankings de preferencia a través de PPO y DPO también mejoró el rendimiento de LLaMA 3 en tareas de razonamiento y codificación. Meta descubrió que si le haces una pregunta de razonamiento a un modelo con la que lucha para responder, este producirá a veces el rastro de razonamiento correcto, es decir, sabrá cómo producir la respuesta correcta, pero no sabe cómo seleccionarla. El entrenamiento en rankings de preferencia permite al modelo aprender cómo seleccionarla.

El perfeccionamiento de las instrucciones es un aspecto fundamental para garantizar la seguridad de los modelos. Meta afirma que la seguridad de sus modelos ajustados a las instrucciones se ha sometido a pruebas internas y externas. En tanto, su enfoque de red teaming aprovecha los expertos humanos y los métodos de automatización para generar mensajes adversos que intentan provocar respuestas problemáticas.

Por ejemplo, se aplicó pruebas exhaustivas para evaluar los riesgos de uso indebido relacionados con la seguridad química, biológica, cibernética y otras áreas de riesgo. Todos estos esfuerzos son iterativos y se utilizan para perfeccionar la seguridad de los modelos que se publican.

¿Qué más viene para LLaMA 3?

Los modelos más grandes de Meta superan los parámetros de 400B, aunque todavía están en fase de formación. Sin embargo, en los próximos meses, la empresa publicará varios modelos con nuevas funciones, como la multimodalidad, la capacidad de conversar en varios idiomas, una ventana de contexto mucho más larga y funciones generales más potentes. También publicará un artículo de investigación detallado una vez hayamos terminado de entrenar a LLaMA 3.

Gracias a sus últimos avances con Meta LLaMA 3, la empresa también anunció la expansión internacional de Meta AI, permitiendo que más personas accedan a esta tecnología de forma gratuita a través de Facebook, Instagram, WhatsApp y Messenger en Australia, Canadá, Ghana, Jamaica, Malawi, Nueva Zelanda, Nigeria, Pakistán, Singapur, Sudáfrica, Uganda, Zambia y Zimbabue.

LLaMA 3 pronto estará disponible en las principales plataformas, incluidos los proveedores de nube, los proveedores de API de modelos y muchos más.

Revisa más noticias sobre ciencia, la tecnología y la innovación en la Agencia Andina.

Más en Andina:

En el Día Internacional de las Niñas en las TIC, que se conmemora cada cuarto jueves de abril, te presentamos un recuento de las peruanas que destacan en la NASA, una de las instituciones espaciales más importantes del mundo.

??https://t.co/pBASO6ix7W pic.twitter.com/YnIouk6Mz7
— Agencia Andina (@Agencia_Andina) April 25, 2024

(FIN) NDP/DSV /SPV

Publicado: 26/4/2024

Principal

Ver noticia completa

Más de Andina

Temblor hoy en Perú, lunes 13 de mayo: sismo de magnitud 4.8 remeció Pasco esta mañana

Andina13 de mayo, 2024

Temblor hoy en Perú, lunes 13 de mayo: sismo de magnitud 4.8 remeció Pasco esta mañana

Un temblor de magnitud 4.8, con una profundidad de 28 kilómetros, remeció esta mañana la selva de la región Pasco, informó el Centro Sismológico Nacional del Instituto Geofísico del Perú (IGP).

Harvey Colchado actuó como agente encubierto dentro de los protocolos, señala su abogado

Andina13 de mayo, 2024

Harvey Colchado actuó como agente encubierto dentro de los protocolos, señala su abogado

El coronel Harvey Colchado actuó como agente encubierto en las reuniones con el abogado Mateo Castañeda dentro de los protocolos de una investigación procesal, señaló su defensor legal, Miguel Pérez Arroyo, quien descartó una posible instigación para el encuentro.

¿Cuál es la cotización del dólar hoy lunes 13 de mayo del 2024?

Andina13 de mayo, 2024

¿Cuál es la cotización del dólar hoy lunes 13 de mayo del 2024?

El precio del dólar inició bajando frente al sol al inicio de la sesión cambiaria de hoy, en un contexto de volatilidad de la moneda en el mercado regional.

Perspectivas: sector turismo en proceso de recuperación sostenido

Andina13 de mayo, 2024

Perspectivas: sector turismo en proceso de recuperación sostenido

Una de las principales características de la actividad turística es su capacidad para generar ingresos económicos y puestos de trabajo en forma descentralizada, hasta en las zonas más rurales y alejadas del país. De ahí la importancia de promover su total recuperación a niveles de prepandemia y asegurar un crecimiento sostenido de mediano y largo plazo.

Machu Picchu: con aumento de aforo se espera una mayor afluencia de turistas a maravilla

Andina13 de mayo, 2024

Machu Picchu: con aumento de aforo se espera una mayor afluencia de turistas a maravilla

Con la oficialización del aumento del aforo de Machu Picchu a 5,600 visitantes por día durante la temporada alta, entre el 1 de junio al 15 de octubre, se espera una mayor afluencia de turistas a una de las siete maravillas del mundo moderno, afirmó hoy la titular del Ministerio de Cultura, Leslie Urteaga.

¿Vives en el extranjero y quieres transferir una propiedad? Sepa cómo hacerlo vía virtual

Andina13 de mayo, 2024

¿Vives en el extranjero y quieres transferir una propiedad? Sepa cómo hacerlo vía virtual

Si estás en el extranjero y necesitas tramitar con urgencia un poder por escritura pública para transferir una propiedad o realizar gestiones bancarias en el Perú, ahora ya puedes hacerlo por vía digital, de manera más rápida y menos costosa, gracias a un convenio entre Sunarp y el Ministerio de Relaciones Exteriores.

Retiro AFP 2024: conoce el cronograma para presentar solicitud con último dígito DNI

Andina13 de mayo, 2024

Retiro AFP 2024: conoce el cronograma para presentar solicitud con último dígito DNI

La Asociación de Administradoras Privadas de Fondos de Pensiones (AFP) publicó un cronograma para que los afiliados puedan presentar su solicitud de retiro de hasta 20,600 soles (4 unidades impositivas tributarias-UIT) en función al último dígito del Documento Nacional de Identidad (DNI).

Cajamarca: Semana de la Mype busca fortalecer sus capacidades y articularla con el mercado

Andina13 de mayo, 2024

Cajamarca: Semana de la Mype busca fortalecer sus capacidades y articularla con el mercado

Cajamarca busca fortalecer las capacidades de las empresas locales para articularlas al mercado con la Semana de la Mype (Medianas y pequeñas empresas) a realizarse en esta ciudad del miércoles 15 al domingo 19 de mayo con capacitaciones, feria tipo Networking, conferencias, entre otras actividades orientadas al desarrollo empresarial.

Conoce el cronograma para la revocatoria de autoridades municipales y regionales

Andina13 de mayo, 2024

Conoce el cronograma para la revocatoria de autoridades municipales y regionales

El Pleno del Jurado Nacional de Elecciones (JNE) aprobó el cronograma electoral para la realización de la consulta de revocatorias de autoridades regionales y municipales en el periodo 2023-2026, prevista para el 8 de junio de 2025.

Cepal: urge inversión verde para un futuro sostenible en la región

Andina13 de mayo, 2024

Cepal: urge inversión verde para un futuro sostenible en la región

La Comisión Económica para América Latina y el Caribe (Cepal) nos presenta una realidad desafiante, pero a la vez esperanzadora, la región requiere grandes inversiones para alcanzar los Objetivos de Desarrollo Sostenible (ODS) y enfrentar la amenaza del cambio climático.

Más vistos

ATV8 de mayo, 2024

Este miércoles 8 de mayo se llevará a cabo uno de los desafíos más esperados de esta semifinal de la Champions League, como lo será Real Madrid ante Bayern Munich en el Santiago Bernabéu que definirá al segundo clasificado de esta competición. Mientras el equipo bávaro prepara este choque, el técnico Thomas Tuchel ofreció unas declaraciones para […]

Piura: Mujer intenta lanzarse de tercer piso para evitar ser violada por el hijo de su jefe [VIDEO]

Perú2113 de mayo, 2024

Piura: Mujer intenta lanzarse de tercer piso para evitar ser violada por el hijo de su jefe [VIDEO]

Familiares de la víctima exigieron la captura y cárcel para el autor del delito.

Gestión de Rennán Espinoza habría simulado contratos por S/700 mil a señor de escasos recursos

Perú2112 de mayo, 2024

Gestión de Rennán Espinoza habría simulado contratos por S/700 mil a señor de escasos recursos

El cuestionado Rennán Espinoza, alcalde de la Municipalidad de Puente Piedra, quien se escapara de un aparatoso accidente en el que se negó a pasar por el dosaje etílico respectivo aduciendo que no manejaba el auto a pesar que era el último de los ocupantes que poseía licencia de conducir, afronta una nueva denuncia.Según reveló Panorama, la comuna distrital contrató a un señor de nombre Jorge Luis Morales, de 61 años, para que a través de su empresa Grupo JMA Inversiones brinde biene

Remontada Monumental: Universitario goleó 4-1 a Sporting Cristal y es líder del Torneo Apertura

RPP12 de mayo, 2024

Remontada Monumental: Universitario goleó 4-1 a Sporting Cristal y es líder del Torneo Apertura

Universitario ante Sporting Cristal, un duelo vital en lo que va de la Liga 1 Te Apuesto. Se juega en el Monumental el liderato del Torneo Apertura.

Le rociaron combustible y le quemaron el 85% del cuerpo, pero su presunta agresora dice que fue un accidente

ATV12 de mayo, 2024

Le rociaron combustible y le quemaron el 85% del cuerpo, pero su presunta agresora dice que fue un accidente

Para la familia de Miguel Esquén todo habría sido planeado para asesinarlo por ambición, venganza o celos

Las redes “interna” y “externa” de Patricia Benavides

Epicentro12 de mayo, 2024

Las redes “interna” y “externa” de Patricia Benavides

La fiscal suprema Delia Espinoza revela la existencia de redes en dos niveles presuntamente lideradas por la exfiscal de la nación.

Presuntos barristas de Universitario y Sporting Cristal se enfrentaron y causaron desmanes en Ate

RPP12 de mayo, 2024

Presuntos barristas de Universitario y Sporting Cristal se enfrentaron y causaron desmanes en Ate

Vecinos en Ate manifestaron que los sujetos se lanzaron bengalas, piedras y palos entre si e incluso algunos realizaron disparos. Hubo daños materiales en la zona.

Premier Gustavo Adrianzén llama a contribuir con la gobernabilidad

Expreso13 de mayo, 2024

Premier Gustavo Adrianzén llama a contribuir con la gobernabilidad

Gustavo Adrianzén se dirigió a los diversos sectores del ámbito estatal para que contribuyan con la estabilidad y gobernabilidad.