Home Lifestyle ¿Qué es un LLM y cómo se relaciona con los chatbots de...

¿Qué es un LLM y cómo se relaciona con los chatbots de IA? Esto es lo que debe saber

39
0


Cuando le pides a un chatbot de IA como ChatGPT, Claude, Copilot o Gemini que haga algo, puede parecer que estás interactuando con una persona. Pueden darle una respuesta (una nota de correo electrónico, un ensayo, un resumen de una solicitud de búsqueda) que sea articulada, gramatical y convincente.

Pero no estás tratando con una persona. Estos chatbots en realidad no entienden el significado de las palabras como nosotros. En cambio, son la interfaz que utilizamos para interactuar con grandes modelos de lenguaje o LLM. Estas tecnologías subyacentes están entrenadas para reconocer cómo se usan las palabras y qué palabras aparecen juntas con frecuencia, de modo que puedan predecir palabras, oraciones o párrafos futuros.

Los creadores de herramientas de IA generativa están perfeccionando constantemente la comprensión de las palabras de sus LLM para hacer mejores predicciones. Todo es parte de un flujo constante de superación iniciado con la introducción de ChatGPT por parte de OpenAI a fines de 2022, seguido rápidamente a principios de 2023 por la llegada de la búsqueda Bing mejorada con inteligencia artificial de Microsoft y Bard de Google (ahora Gemini).

Ya llevamos varias generaciones en la evolución de los LLM. OpenAI presentó GPT-4o en mayo, GPT-4o Mini en julio y OpenAI o1 en septiembre. Google tiene variaciones que incluyen Gemini 1.5 Pro y 1.5 Flash. Meta ahora está en Llama 3, mientras que Anthropic está en Claude 3.5.

Si se pregunta qué tienen que ver los LLM con la IA, esta explicación es para usted.

¿Qué es un modelo de lenguaje?

Puedes pensar en un modelo de lenguaje como un adivino de las palabras.

“Un modelo de lenguaje es algo que intenta predecir cómo se ve el lenguaje que producen los humanos”, dijo Mark Riedl, profesor de la Escuela de Computación Interactiva de Georgia Tech y director asociado del Centro de Aprendizaje Automático de Georgia Tech. “Lo que hace que algo sea un modelo de lenguaje es si puede predecir palabras futuras dadas las palabras anteriores”.

Esta es la base de la función de autocompletar cuando envías mensajes de texto, así como de los chatbots de IA.

¿Qué es un modelo de lenguaje grande?

Un modelo de lenguaje grande contiene grandes cantidades de palabras, de una amplia gama de fuentes. Estos modelos se miden en lo que se conoce como “parámetros”.

¿Qué es un parámetro?

Bueno, los LLM utilizan redes neuronales, que son modelos de aprendizaje automático que toman una entrada y realizan cálculos matemáticos para producir una salida. El número de variables en estos cálculos son parámetros. Un modelo de lenguaje grande puede tener mil millones de parámetros o más.

“Sabemos que son grandes cuando producen un párrafo completo de texto fluido y coherente”, dijo Riedl.

¿Existe un modelo de lenguaje pequeño?

Sí. Empresas tecnológicas como Microsoft están lanzando modelos más pequeños que están diseñados para funcionar “en el dispositivo” y no requieren los mismos recursos informáticos que un LLM, pero que aun así ayudan a los usuarios a aprovechar el poder de la IA generativa.

¿Qué hay bajo el capó de un modelo de lenguaje grande?

Cuando es antrópico mapeó la “mente” de su modelo de lenguaje grande Claude 3.0 Sonnet, encontró que cada estado interno (“lo que el modelo ‘piensa’ antes de escribir su respuesta”) se genera combinando características o patrones de activaciones neuronales. (Las neuronas artificiales de las redes neuronales imitan el comportamiento de las neuronas de nuestro cerebro).

Al extraer estas activaciones neuronales de Claude 3.0 Sonnet, Anthropic pudo ver un mapa de sus estados internos a medida que genera respuestas. La startup de IA descubrió que los patrones de activación neuronal se centraban en ciudades, personas, elementos atómicos, campos científicos y sintaxis de programación, así como en conceptos más abstractos como errores en el código informático, prejuicios de género en el trabajo y conversaciones sobre cómo guardar secretos.

Al final, dijo Anthropic, “la organización interna de conceptos en el modelo de IA corresponde, al menos en parte, a nuestras nociones humanas de similitud”.

¿Cómo aprenden los modelos de lenguaje grandes?

Los LLM aprenden a través de un proceso central de inteligencia artificial llamado aprendizaje profundo.

“Es muy parecido a cuando le enseñas a un niño: muestras muchos ejemplos”, dijo Jason Alan Snyder, director tecnológico global de la agencia de publicidad Momentum Worldwide.

En otras palabras, alimenta al LLM con una biblioteca de contenido (lo que se conoce como datos de capacitación), como libros, artículos, códigos y publicaciones en redes sociales para ayudarlo a comprender cómo se usan las palabras en diferentes contextos, e incluso los matices más sutiles del lenguaje. . Este modelo digiere mucho más de lo que una persona podría leer en su vida: algo del orden de billones de tokens.

Los tokens ayudan a los modelos de IA a descomponer y procesar texto. Puedes pensar en un modelo de IA como un lector que necesita ayuda. El modelo divide una oración en partes más pequeñas, o fichas, que equivalen a cuatro caracteres en inglés, o alrededor de tres cuartos de una palabra, para que puedan entender cada parte y luego el significado general.

A partir de ahí, el LLM puede analizar cómo se conectan las palabras y determinar qué palabras suelen aparecer juntas.

“Es como construir este mapa gigante de relaciones entre palabras”, dijo Snyder. “Y luego comienza a ser capaz de hacer algo realmente divertido y genial, y predice cuál es la siguiente palabra… y compara la predicción con la palabra real en los datos y ajusta el mapa interno en función de su precisión”.

Esta predicción y ajuste ocurre miles de millones de veces, por lo que el LLM refina constantemente su comprensión del lenguaje y mejora en la identificación de patrones y la predicción de palabras futuras. Incluso puede aprender conceptos y hechos a partir de los datos para responder preguntas, generar formatos de texto creativos y traducir idiomas. Pero no entienden el significado de las palabras como nosotros; todo lo que conocen son las relaciones estadísticas.

Los LLM también aprenden a mejorar sus respuestas mediante el aprendizaje reforzado a partir de la retroalimentación humana.

“Se obtiene un juicio o una preferencia de los humanos sobre qué respuesta fue mejor dada la información que se les dio”, dijo Maarten Sap, profesor asistente en el Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon. “Y luego puedes enseñarle al modelo a mejorar sus respuestas”.

¿Qué hacen los modelos de lenguaje grandes?

Dada una serie de palabras de entrada, un LLM predecirá la siguiente palabra en una secuencia.

Por ejemplo, considere la frase “Fui a navegar en el azul profundo…”

La mayoría de la gente probablemente adivinaría “mar” porque navegar, profundo y azul son palabras que asociamos con el mar. En otras palabras, cada palabra establece el contexto de lo que debería venir a continuación.

“Estos grandes modelos de lenguaje, debido a que tienen muchos parámetros, pueden almacenar muchos patrones”, dijo Riedl. “Son muy buenos para detectar estas pistas y hacer conjeturas realmente acertadas sobre lo que viene a continuación”.

¿Qué hacen realmente bien los modelos de lenguaje grandes?

Los LLM son muy buenos para descubrir la conexión entre palabras y producir texto que suene natural.

“Toman una entrada, que a menudo puede ser un conjunto de instrucciones, como ‘Haz esto por mí’ o ‘Cuéntame sobre esto’ o ‘Resume esto’ y son capaces de extraer esos patrones de la entrada y producir un largo serie de respuestas fluidas”, afirmó Riedl.

¿Dónde luchan los grandes modelos lingüísticos?

Pero tienen varias debilidades.

Primero, no son buenos para decir la verdad. De hecho, a veces simplemente inventan cosas que parecen ciertas, como cuando ChatGPT citó seis casos judiciales falsos en un escrito legal o cuando Bard acreditado erróneamente El Telescopio Espacial James Webb tomó las primeras fotografías de un planeta fuera de nuestro sistema solar. Se les conoce como alucinaciones.

“Son extremadamente poco fiables en el sentido de que confabulan e inventan muchas cosas”, dijo Sap. “No están entrenados ni diseñados de ninguna manera para decir nada veraz”.

También luchan con consultas que son fundamentalmente diferentes de cualquier cosa que hayan encontrado antes. Esto se debe a que se centran en encontrar patrones y responder a ellos.

Un buen ejemplo es un problema matemático con un conjunto único de números.

“Es posible que no pueda hacer ese cálculo correctamente porque en realidad no está resolviendo matemáticas”, dijo Riedl. “Está tratando de relacionar su pregunta de matemáticas con ejemplos anteriores de preguntas de matemáticas que ha visto antes”.

Y si bien se destacan en predecir palabras, no son buenos para predecir el futuro, lo que incluye la planificación y la toma de decisiones.

“La idea de planificar como lo hacen los humanos… pensando en las diferentes contingencias y alternativas y tomando decisiones, parece ser un obstáculo realmente difícil para nuestros grandes modelos de lenguaje actuales”, dijo Riedl.

Finalmente, tienen dificultades con los eventos actuales porque sus datos de entrenamiento generalmente solo llegan hasta un cierto momento y todo lo que sucede después no es parte de su base de conocimientos. Y como no tienen la capacidad de distinguir entre lo que es cierto y lo que es probable, pueden proporcionar con seguridad información incorrecta sobre los acontecimientos actuales.

Tampoco interactúan con el mundo como lo hacemos nosotros.

“Esto les dificulta comprender los matices y complejidades de los acontecimientos actuales que a menudo requieren una comprensión del contexto, la dinámica social y las consecuencias del mundo real”, dijo Snyder.

¿Cómo evolucionarán los grandes modelos lingüísticos?

Ya estamos viendo a empresas de IA generativa como OpenAI, Google y Adobe presentar modelos multimodales, que se entrenan no solo en texto sino también en imágenes, video y audio.

Y estamos viendo que las capacidades de recuperación evolucionan más allá de lo que los modelos han sido entrenados, incluida la conexión con motores de búsqueda como Google para que los modelos puedan realizar búsquedas web y luego introducir esos resultados en el LLM. Esto significa que podrían comprender mejor las consultas y brindar respuestas más oportunas.

“Esto ayuda a que nuestros modelos de vinculación se mantengan actualizados porque pueden buscar información nueva en Internet y traerla”, dijo Riedl.

Ese era el objetivo, por ejemplo, con Bing impulsado por IA. En lugar de recurrir a los motores de búsqueda para mejorar sus respuestas, Microsoft recurrió a la IA para mejorar su propio motor de búsqueda, en parte al comprender mejor el verdadero significado detrás de las consultas de los consumidores y clasificar mejor los resultados de dichas consultas.

Pero hay trampas. La búsqueda en Internet podría empeorar las alucinaciones sin mecanismos adecuados de verificación de datos. Y los LLM necesitarían aprender a evaluar la confiabilidad de las fuentes web antes de citarlas. Google aprendió esto por las malas con el debut propenso a errores de sus resultados de búsqueda AI Overviews a principios de este año. Posteriormente, la empresa de búsqueda perfeccionó sus resultados de AI Overviews para reducir los resúmenes engañosos o potencialmente peligrosos.

Mientras tanto, modelos como Lumiere de Google y Sora de OpenAI incluso están aprendiendo a generar imágenes, vídeos y audio. Google y Adobe han lanzado adelantos de herramientas que pueden generar juegos virtuales y música, para mostrar a los consumidores hacia dónde se dirige la tecnología.

También es probable que veamos mejoras en las capacidades de los LLM no solo para traducir idiomas del inglés, sino también para comprender y conversar en idiomas adicionales.





Source link