Meta revela LLaMA 3 y explica cómo funciona su modelo de inteligencia artificial
La empresa de tecnología Meta lanzó LLaMA 3, la nueva generación de su modelo de lenguaje grande (LLM),que presenta modelos pre-entrenados y ajustados a una amplia gama de parámetros de referencia con el fin de optimizar capacidades como el razonamiento, la codificación y el seguimiento de instrucciones con inteligencia artificial.
La empresa de tecnología Meta lanzó LLaMA 3, la nueva generación de su modelo de lenguaje grande (LLM),que presenta modelos pre-entrenados y ajustados a una amplia gama de parámetros de referencia con el fin de optimizar capacidades como el razonamiento, la codificación y el seguimiento de instrucciones con inteligencia artificial.
LLaMA 3 presenta modelos de lenguaje pre-entrenados y ajustados a las instrucciones con 8 mil millones de parámetros (8B) y 70 mil millones de parámetros (70B),que consisten en variables internas propias del algoritmo de aprendizaje que se pueden adaptar a una amplia diversidad de casos de uso.
Con un modelo de código abierto de vanguardia, LLaMA 3 busca incorporar las devoluciones y comentarios de los desarrolladores para aumentar su utilidad general. Además, Meta adoptó la ética del código abierto de publicar rápido y con frecuencia para que la comunidad pueda acceder a estos modelos mientras aún están en desarrollo.
Los modelos basados en texto que publicó Meta son los primeros de la colección de modelos LLaMA 3. A corto plazo, el objetivo de la empresa es que este modelo de lenguaje sea multilingüe y multimodal, que tenga un contexto más amplio y que siga mejorando el rendimiento general de las capacidades básicas de LLM, como el razonamiento y la codificación.
Rendimiento de vanguardia
Los nuevos modelos LLaMa 3 de parámetros 8B y 70B suponen un gran salto con respecto a LLaMA 2, lanzada en julio de 2023, y establecen un nuevo objeto de estudio para los modelos LLM a esas escalas. Gracias a las mejoras en el pre-entrenamiento y el post-entrenamiento, el modelo de lenguaje redujo sustancialmente las tasas de falsos rechazos, mejoró la alineación y aumentó la diversidad en las respuestas de los modelos.
En el desarrollo de LLaMA 3, la empresa priorizó el rendimiento del modelo en puntos de referencia estándar y buscó optimizar el rendimiento para escenarios del mundo real. Para ello, desarrolló un nuevo conjunto de evaluación humana de alta calidad.
Este conjunto de evaluación contiene 1.800 preguntas que cubren 12 casos de uso clave: pedir consejo, lluvia de ideas, clasificación, respuesta a preguntas cerradas, codificación, escritura creativa, extracción, adopción de un personaje/persona, respuesta a preguntas abiertas, razonamiento, reescritura y resumen.
Para evitar el sobreajuste accidental de los modelos en este conjunto de evaluación, Meta ha restringido el acceso a sus propios equipos de modelización. Asimismo, para desarrollar un gran modelo lingüístico Meta adoptó una filosofía de diseño centrada en cuatro aspectos claves: la arquitectura del modelo, los datos de pre-entrenamiento, la ampliación del pre-entrenamiento y el ajuste de las instrucciones.
En ese sentido, LLaMA 3 trabaja con una arquitectura de transformador relativamente estándar de un solo descodificador, que constituye una tecnología fundamental en el campo del aprendizaje profundo y el procesamiento del lenguaje natural.
En comparación con LLaMA 2, el nuevo modelo de lenguaje introduce varias mejoras clave, como un tokenizador con un vocabulario de 128.000 tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora sustancialmente el rendimiento del modelo. Un token es una unidad indivisible o elemento básico del lenguaje, que puede ser una palabra, un número o un símbolo.
Para mejorar la eficacia de inferencia de los modelos de LLaMA 3, Meta adoptó la atención a consultas agrupadas en los tamaños 8B y 70B. Asimismo, se entrenó los modelos en secuencias de 8.192 tokens, utilizando una máscara para garantizar que la autoatención no cruce los límites del documento.
Para entrenar el modelo lingüístico, Meta dispuso de un conjunto de datos de entrenamiento amplio y de alta calidad. De acuerdo con sus principios, invirtió en datos de pre-entrenamiento con más de 15T de tokens recogidos de fuentes públicas.
El conjunto de datos de entrenamiento fue siete veces mayor que el utilizado para LLaMA 2 e incluyó cuatro veces más códigos. Como preparación para los próximos casos de uso multilingüe, más del 5% del conjunto de datos de pre-entrenamiento de LLaMA 3 está formado por datos de alta calidad en lengua no inglesa que abarcan más de 30 idiomas. Sin embargo, la empresa no garantiza el mismo nivel de rendimiento en estos idiomas que en inglés.
Para garantizar datos de la máxima calidad en el entrenamiento de LLaMA 3, Meta desarrolló una serie de procesos de filtración de datos ,que incluyen filtros heurísticos (método de detección de virus),filtros NSFW (que bloquean el contenido que es apto sólo para adultos),enfoques de deduplicación semántica (proceso que elimina copias excesivas de datos) y clasificadores de texto para predecir la calidad de los datos.
Meta también realizó experimentos exhaustivos para evaluar las mejores formas de mezclar datos de distintas fuentes en su conjunto de datos final de pre-entrenamiento. Estos experimentos permitieron seleccionar una combinación de datos que garantizó un buen rendimiento de LLaMA 3 en distintos casos de uso, como preguntas de trivialidades, STEM, codificación, conocimientos históricos, etc.
En caso de usos de chat y su ajuste de instrucciones Meta también innovó en su enfoque para desbloquear completamente el potencial de sus modelos pre-entrenados. Su enfoque para el post-entrenamiento es una combinación de ajuste fino supervisado (SFT),muestreo de rechazo, optimización de políticas proximales (PPO) y optimización de políticas directas (DPO).
De esta forma, se avanza en el aprendizaje por refuerzo a partir de la retroalimentación humana, la generación de observaciones a partir de una distribución, la mejora de la estabilidad del entrenamiento de la política y el control preciso de los modelos de lenguaje.
Aprender de los rankings de preferencia a través de PPO y DPO también mejoró el rendimiento de LLaMA 3 en tareas de razonamiento y codificación. Meta descubrió que si le haces una pregunta de razonamiento a un modelo con la que lucha para responder, este producirá a veces el rastro de razonamiento correcto, es decir, sabrá cómo producir la respuesta correcta, pero no sabe cómo seleccionarla. El entrenamiento en rankings de preferencia permite al modelo aprender cómo seleccionarla.
El perfeccionamiento de las instrucciones es un aspecto fundamental para garantizar la seguridad de los modelos. Meta afirma que la seguridad de sus modelos ajustados a las instrucciones se ha sometido a pruebas internas y externas. En tanto, su enfoque de red teaming aprovecha los expertos humanos y los métodos de automatización para generar mensajes adversos que intentan provocar respuestas problemáticas.
Por ejemplo, se aplicó pruebas exhaustivas para evaluar los riesgos de uso indebido relacionados con la seguridad química, biológica, cibernética y otras áreas de riesgo. Todos estos esfuerzos son iterativos y se utilizan para perfeccionar la seguridad de los modelos que se publican.
¿Qué más viene para LLaMA 3?
Los modelos más grandes de Meta superan los parámetros de 400B, aunque todavía están en fase de formación. Sin embargo, en los próximos meses, la empresa publicará varios modelos con nuevas funciones, como la multimodalidad, la capacidad de conversar en varios idiomas, una ventana de contexto mucho más larga y funciones generales más potentes. También publicará un artículo de investigación detallado una vez hayamos terminado de entrenar a LLaMA 3.
Gracias a sus últimos avances con Meta LLaMA 3, la empresa también anunció la expansión internacional de Meta AI, permitiendo que más personas accedan a esta tecnología de forma gratuita a través de Facebook, Instagram, WhatsApp y Messenger en Australia, Canadá, Ghana, Jamaica, Malawi, Nueva Zelanda, Nigeria, Pakistán, Singapur, Sudáfrica, Uganda, Zambia y Zimbabue.
LLaMA 3 pronto estará disponible en las principales plataformas, incluidos los proveedores de nube, los proveedores de API de modelos y muchos más.
En el Día Internacional de las Niñas en las TIC, que se conmemora cada cuarto jueves de abril, te presentamos un recuento de las peruanas que destacan en la NASA, una de las instituciones espaciales más importantes del mundo.
Un temblor de magnitud 4.8, con una profundidad de 28 kilómetros, remeció esta mañana la selva de la región Pasco, informó el Centro Sismológico Nacional del Instituto Geofísico del Perú (IGP).
El coronel Harvey Colchado actuó como agente encubierto en las reuniones con el abogado Mateo Castañeda dentro de los protocolos de una investigación procesal, señaló su defensor legal, Miguel Pérez Arroyo, quien descartó una posible instigación para el encuentro.
El precio del dólar inició bajando frente al sol al inicio de la sesión cambiaria de hoy, en un contexto de volatilidad de la moneda en el mercado regional.
Una de las principales características de la actividad turística es su capacidad para generar ingresos económicos y puestos de trabajo en forma descentralizada, hasta en las zonas más rurales y alejadas del país. De ahí la importancia de promover su total recuperación a niveles de prepandemia y asegurar un crecimiento sostenido de mediano y largo plazo.
Con la oficialización del aumento del aforo de Machu Picchu a 5,600 visitantes por día durante la temporada alta, entre el 1 de junio al 15 de octubre, se espera una mayor afluencia de turistas a una de las siete maravillas del mundo moderno, afirmó hoy la titular del Ministerio de Cultura, Leslie Urteaga.
Si estás en el extranjero y necesitas tramitar con urgencia un poder por escritura pública para transferir una propiedad o realizar gestiones bancarias en el Perú, ahora ya puedes hacerlo por vía digital, de manera más rápida y menos costosa, gracias a un convenio entre Sunarp y el Ministerio de Relaciones Exteriores.
La Asociación de Administradoras Privadas de Fondos de Pensiones (AFP) publicó un cronograma para que los afiliados puedan presentar su solicitud de retiro de hasta 20,600 soles (4 unidades impositivas tributarias-UIT) en función al último dígito del Documento Nacional de Identidad (DNI).
Cajamarca busca fortalecer las capacidades de las empresas locales para articularlas al mercado con la Semana de la Mype (Medianas y pequeñas empresas) a realizarse en esta ciudad del miércoles 15 al domingo 19 de mayo con capacitaciones, feria tipo Networking, conferencias, entre otras actividades orientadas al desarrollo empresarial.
El Pleno del Jurado Nacional de Elecciones (JNE) aprobó el cronograma electoral para la realización de la consulta de revocatorias de autoridades regionales y municipales en el periodo 2023-2026, prevista para el 8 de junio de 2025.
La Comisión Económica para América Latina y el Caribe (Cepal) nos presenta una realidad desafiante, pero a la vez esperanzadora, la región requiere grandes inversiones para alcanzar los Objetivos de Desarrollo Sostenible (ODS) y enfrentar la amenaza del cambio climático.
Este miércoles 8 de mayo se llevará a cabo uno de los desafíos más esperados de esta semifinal de la Champions League, como lo será Real Madrid ante Bayern Munich en el Santiago Bernabéu que definirá al segundo clasificado de esta competición. Mientras el equipo bávaro prepara este choque, el técnico Thomas Tuchel ofreció unas declaraciones para […]
El cuestionado Rennán Espinoza, alcalde de la Municipalidad de Puente Piedra, quien se escapara de un aparatoso accidente en el que se negó a pasar por el dosaje etílico respectivo aduciendo que no manejaba el auto a pesar que era el último de los ocupantes que poseía licencia de conducir, afronta una nueva denuncia.Según reveló Panorama, la comuna distrital contrató a un señor de nombre Jorge Luis Morales, de 61 años, para que a través de su empresa Grupo JMA Inversiones brinde biene
Vecinos en Ate manifestaron que los sujetos se lanzaron bengalas, piedras y palos entre si e incluso algunos realizaron disparos. Hubo daños materiales en la zona.