Este artículo pertenece a Gen AI Series “From ZERO to HERO: IA Generativa aplicada”, una serie de artículos y novedades sobre IA Generativa aplicada a la industria que te ayudarán a conocer mejor esta tecnología y aplicarla de manera efectiva.
Accede al universo de la IA Generativa
Seguro que en estos últimos meses has oído hablar de términos como Inteligencia Artificial Generativa, Chat GPT, Redes Neuronales, LLM, GPT-4… ¿Pero sabes a qué se refiere cada uno y en qué se diferencian? En este artículo te explicamos los principales términos que debes conocer en relación con la IA Generativa. ¿Comenzamos?
- IA Generativa
- Machine Learning
- Aprendizaje Supervisado
- Aprendizaje No Supervisado
- Aprendizaje Por Refuerzo
- Redes Neuronales
- Deep Learning
- GAN
- LM y LLM
- NLP
- Open AI
- GPT-3.5 y GPT-4
- Chat GPT
- DALL·E
- Bard
- Gemini
- Claude
- Reajuste (fine-tuning)
- Prompts
- Token
- Huggingface
- RAG
- Transformer
IA Generativa
La Inteligencia Artificial Generativa es un campo de la Inteligencia Artificial que engloba los sistemas y algoritmos capaces de generar contenido nuevo, original y creativo. Este tipo de IA aprende a partir de enormes conjuntos de datos y genera nuevos contenidos similares (texto, imágenes, música y otros tipos de datos).
Se encuentra dentro de un tipo específico de Machine Learning conocido como Deep Learning o aprendizaje profundo, que se basa en el uso de redes neuronales profundas. Estas redes se configuran en diversas arquitecturas, como por ejemplo, las redes generativas adversariales (en inglés Generative Adversarial Networks o GANS) o los modelos de difusión basados en Transformers.
Machine Learning
El Machine Learning (Aprendizaje Automático) es una rama de las ciencias computacionales que busca que los ordenadores realicen tareas sin haber sido explícitamente programados para ello. Se trata de modelos que son capaces de mejorar su precisión gradualmente a partir de los datos proporcionados. Su aplicación más básica es la práctica de usar algoritmos para tratar datos, aprender de ellos y luego ser capaces de hacer una predicción o sugerencia sobre algo. A su vez, comprende 3 categorías de aprendizaje: el supervisado, no supervisado y por refuerzo.
Aprendizaje Supervisado
El Aprendizaje Supervisado es un tipo de aprendizaje de los modelos de Machine Learning (Aprendizaje Automático) que se basa en datos etiquetados y cuenta con una alta precisión y resultados fácilmente interpretables, por eso es muy utilizado en industria. Su inconveniente principal radica en que necesita que los datos estén previamente etiquetados (lo que puede resultar costoso o poco viable en muchos casos).
Aprendizaje No Supervisado
El Aprendizaje No Supervisado es un tipo de aprendizaje de los modelos de ML que utiliza datos no etiquetados y al contrario que los modelos de Aprendizaje Supervisado, es capaz de detectar patrones ocultos en los datos sin intervención humana. Aquí entran los algoritmos de clustering, por ejemplo, para hacer agrupación de clientes en segmentos y para la detección de comportamientos similares.
Aprendizaje Por Refuerzo
El Aprendizaje Por Refuerzo es un tipo de aprendizaje de los modelos de ML donde se busca que la máquina guíe su aprendizaje a partir de la repetición de acciones y recompensas asociadas. El agente, que representa la máquina, toma acciones en un entorno y recibe recompensas cuando se toman las decisiones correctas. Con el tiempo el agente aprende a escoger las acciones correctas para maximizar su recompensa. Precisamente, el Aprendizaje Por Refuerzo a partir de retroalimentación humana (o en inglés Reinforcement Learning from Human Feedback) es la técnica que está detrás de los modelos de lenguaje de gran tamaño como ChatGPT.
Redes Neuronales
Las redes neuronales son un tipo de modelo computacional que enseña a las máquinas a procesar datos de una manera que está inspirada en la forma en que lo hace el cerebro humano. Consiste en un conjunto de unidades, llamadas neuronas artificiales, conectadas entre sí para transmitirse señales. La información de entrada atraviesa la red neuronal (donde se somete a diversas operaciones) produciendo unos valores de salida.
Deep Learning
Deep Learning o Aprendizaje Profundo es un tipo de Machine Learning que utiliza redes neuronales complejas con tres o más capas. Estas redes neuronales intentan emular el comportamiento del cerebro humano —aunque lejos de igualar su capacidad— pero le permiten «aprender» a partir de grandes cantidades de datos. Aunque una red neuronal con una sola capa ya puede realizar predicciones aproximadas, las capas ocultas adicionales dan mayor complejidad al modelo y ayudan a optimizar su precisión.
GAN
Las Redes Neuronales Generativas Adversariales o Antagónicas, en inglés conocidas como GAN (Generative Adversarial Networks) son un método basado en el entrenamiento de dos redes neuronales, una denominada generadora y otra discriminadora, que compiten entre sí para generar nuevas instancias que se asemejen a las de la distribución de probabilidad de los datos de entrenamiento.
LM y LLM – Large Language Models
Los modelos de lenguaje (LM), son modelos de aprendizaje automático que funcionan prediciendo cual será la siguiente palabra dentro de una oración, teniendo en cuenta el contexto de las palabras anteriores. Esto se basan en una descripción probabilística de los fenómenos del lenguaje.
Un modelo de lenguaje colosal o LLM, también llamado modelo de lenguaje de gran tamaño, es un modelo de lenguaje que consta de una red neuronal con muchos parámetros, entrenados en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o aprendizaje semisupervisado. Estos modelos pueden ser utilizados en una amplia gama de tareas relacionadas con el procesamiento del lenguaje natural, como la creación de textos, la sumarización de documentos o la traducción de idiomas.
NLP
El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje. Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.
Open AI
Open AI es un laboratorio de investigación de inteligencia artificial (IA) fundado en 2015 que opera con la intención declarada de promover y desarrollar una IA amigable y democratizada. Los sistemas OpenAI se ejecutan en una plataforma de supercomputación basada en Azure de Microsoft, y algunos de sus trabajos más conocidos son IAs Generativas como ChatGPT (la IA conversacional líder) o DALL·E (la IA de generación de imágenes a partir de lenguaje natural).
GPT-3.5 y GPT-4
GPT-3.5 y GPT-4 son modelos de LLM desarrollados por Open AI que utilizan aplicaciones como Chat-GPT o DALL·E. Mientras que GPT-3.5 es un modelo que solo acepta peticiones en texto, GPT-4 es multimodal, es decir, acepta diferentes formatos de entrada.
Chat-GPT
Chat GPT es un modelo de lenguaje desarrollado por la empresa OpenAI que emplea técnicas de procesamiento de lenguaje natural (NLP) para generar respuestas coherentes y naturales en tiempo real. Su versión gratuita utiliza el modelo GPT-3.5, y la versión más actual GPT-4.
DALL·E
DALL-E es una aplicación de IA creada por OpenAI que crea imágenes a partir del lenguaje natural. A través de lenguaje natural, es posible indicarle qué queremos que nos dibuje, y la IA creará una imagen única basada en la descripción que le hayamos dado. Al igual que Chat-GPT, está basado en los modelos GPT de Open AI.
Bard
Bard era el nombre de la IA conversacional desarrollada por Google y basada originalmente en la familia PaLM 2. Google la sacó en respuesta a la enorme popularidad de Chat-GPT. Actualmente, usa el modelo de IA llamado Gemini Pro cuando se comunica en inglés. Este modelo puede procesar y combinar diferentes tipos de información, como texto, imágenes, audio y código. Actualmente se llama Gemini.
Gemini
Gemini es el modelo de LLM desarrollado por Google, y ahora el nombre de su IA conversacional que lleva como base este modelo. Es un modelo multimodal, lo que significa que puede generar y comprender, operar y combinar a la perfección diferentes tipos de información, incluyendo texto, imágenes, audios, videos y lenguajes de programación. También es el modelo más flexible hasta el momento, capaz de ejecutarse eficientemente en cualquier dispositivo, desde móviles hasta centros de datos.
Claude
Claude es una inteligencia artificial conversacional desarrollada por Anthropic, producto de la investigación colaborativa con socios como Notion, Quora y DuckDuckGo. Su algoritmo está entrenado para ser funcionar como asistente, al cual se le pueden hacer preguntas de forma similar a como se realiza con ChatGPT.
Reajuste (fine-tuning)
El Fine-Tuning o ajuste fino es una técnica de entrenamiento que consiste en la reutilización de arquitecturas de redes neuronales predefinidas y preentrenadas. Se trata de un proceso en el que se realiza un “ajuste fino” de algunas capas de la red para obtener las salidas deseadas. Es decir, se ajustan ligeramente ciertas representaciones del modelo preentrenado para que este resulte más relevante en el problema que se desea resolver. Así, se evita realizar el entrenamiento de la red desde cero.
Prompts
Un “prompt” en IA se refiere a una instrucción o petición que un usuario hace a un LLM, chatbot o modelo de IA. Esta instrucción puede venir no solo en lenguaje natural (texto o audio) sino en otros formatos como imágenes o código. La preparación cuidadosa y concisa de estas instrucciones se conoce como “prompting”, y busca finalmente obtener los resultados o respuesta deseadas de LLMs o modelos generativos de imágenes y videos.
Token
En el contexto de modelos de lenguaje grandes o LLMs, un token es una unidad básica de información para el procesamiento de texto. Estos tokens, por lo general, corresponden a palabras o frases, aunque también pueden ser signos de puntuación o números. La transformación del texto en cadenas de tokens, permite a los LLMs procesar los prompts de los usuarios y generar las respuestas correspondientes. Un modelo como GPT-3.5 podría manejar 4.096 tokens o alrededor de 8.000 palabras. El número de tokens procesados en una entrada va creciendo a medida que se entrenan LLMs de más complejidad.
Transformer
Es una arquitectura de red neuronal que ha servido como base para los modelos de aprendizaje profundo usados en modelos modernos de IA generativa. Los Transformers se especializan en el procesado de información secuencial, como lenguaje natural, y para ello emplean el mecanismo de autoatención en el que se le da un peso diferente a cada parte del input. Estos modelos toman una frase en la forma de una secuencia de vectores, lo convierten en un vector encodificado, el cual es a su vez decodificado en una secuencia de salida. Esta arquitectura fue propuesta por un grupo de investigadores de Google in 2017, en el artículo seminal “Attention is all you need”.
Huggingface
Empresa que trabaja en el desarrollo de herramientas y bibliotecas para la implementación y distribución de modelos de IA generativa. Huggingface es conocida por la librería Transformers y el LLM de código abierto BLOOM.
RAG
La generación mejorada por recuperación, en inglés Retrieval-Augmented Generation, es una metodología para optimizar LLMs de forma que estos tengan en cuenta una base de conocimientos de referencia a la hora de generar respuestas. De esta forma, con RAG aumentamos con información interna o específica las capacidades de LLMs que han sido entrenados con grandes volúmenes de datos genéricos.
¿Sigues teniendo alguna duda sobre algunos de estos términos clave de la IA Generativa?
Nosotros te ayudamos.