Este artículo pertenece a Gen AI Series “From ZERO to HERO: IA Generativa aplicada”, una serie de artículos y novedades sobre IA Generativa aplicada a la industria que te ayudarán a conocer mejor esta tecnología y aplicarla de manera efectiva.
Accede al universo de la IA Generativa
Como ya hemos comentado en artículos anteriores, la IA Generativa es un campo de la Inteligencia Artificial que engloba los sistemas y algoritmos capaces de generar contenido nuevo, original y creativo a partir de un conjunto de datos existente similar (texto, imágenes, música y otros tipos de datos). La IA Generativa es una de las grandes tendencias tecnológicas para los próximos años debido a su gran potencial y está en boga gracias a su reciente democratización a través de aplicaciones como ChatGPT.
Aun así, siguen siendo muchas las preguntas frecuentes que se hacen los usuarios sobre esta tecnología:
- ¿Cómo funciona la IA Generativa?
- ¿Cuáles son sus principales aplicaciones?
- ¿Qué empresas trabajan desarrollando e investigando en el campo de los modelos generativos?
- ¿Qué se necesita para aplicar IA Generativa? ¿Pueden utilizarla sólo grandes empresas?
En este artículo respondemos a todas estas preguntas.
¿Cómo funciona la IA Generativa?
A pesar de que hace algunos años se usaban Autocodificadores Variacionales o Redes Generativas Adversariales, las Arquitecturas basadas en Transformadores preentrenados son las más utilizadas en la actualidad.
Las arquitecturas basadas en Transformadores o Transformers se especializan en el procesado de información secuencial, como lenguaje natural, y para ello emplean el mecanismo de autoatención en el que se le da un peso diferente a cada parte del input. Estos modelos toman una frase en la forma de una secuencia de vectores de alta dimensionalidad, a los que se agrega codificación posicional para incluir información sobre el orden de los tokens de la secuencia. Estas arquitecturas suelen estructurarse como modelos codificadores-decodificadores, donde la primera parte procesa la entrada y la segunda genera la salida. Generalmente se utilizan conexiones residuales y normalización de capas para estabilizar el entrenamiento y mejorar el flujo de gradientes a través del modelo. Esta arquitectura fue propuesta por un grupo de investigadores de Google en 2017, en el artículo seminal “Attention is all you need”.
Un paso crucial hacia la IA Generativa actual fue el primer transformador generative preentrenado (GPT), propuesto por OpenAI en 2018. Estos modelos son transformadores preentrenados en grandes conjuntos de datos de texto sin etiquetar, empleando aprendizaje semisupervisado. Con las siguientes versiones de modelos GPT, se llega los llamados modelos fundacionales, los cuales son entrenados en grandes cantidades de datos no etiquetados a gran escala, generalmente mediante aprendizaje autosupervisado, dando lugar a modelos que se logran adaptar a una amplia gama de tareas especializadas. Los primeros ejemplos de tales modelos fundacionales fueron grandes modelos de lenguaje preentrenados, como BERT y GPT-3, que usaron datos del common crawl, de bases de datos de libros o artículos, y de toda la Wikipedia.
Aunque los modelos de IA Generativa más prominentes en la actualidad se especializan en lenguaje natural (GPT-n, LLaMA, BLOOM, Gemini), también hay modelos para procesamiento de imágenes y videos (DALL-E, Midjourney, Stable Diffusion) y para muchas otras modalidades de datos, como música, código, estructuras moleculares, etc. Hoy en día, se cuenta con varios modelos fundacionales multimodales como DALL-E, GPT-4 o Gemini Ultra.
¿Cuáles son las principales aplicaciones de la IA Generativa?
Algunas de las principales aplicaciones de IA Generativa son:
- Comprensión y generación del lenguaje natural: interpretar un mensaje y entender su significado e intención, tal y como haría una persona, y crear un nuevo mensaje en lenguaje natural de manera autónoma. La aplicación más común son los asistentes virtuales y los chatbots especializados.
- Recuperación de información o Information Retrieval: procesar textos de documentos para recuperar partes específicas en base a palabras clave. Por ejemplo, técnicas como la extracción de información estructurada o los sistemas de respuesta a preguntas de usuarios.
- Traducción automática: traducir mensajes entre diferentes lenguas o idiomas. Esta funcionalidad es parecida a los sistemas de autocorrección y autocompletado de texto.
- Resumen y clasificación de textos: resumir textos de extensiones largas de manera automática o extraer palabras clave para clasificarlos. Otro de los usos que se le da a esta función de clasificación, es la de detección de spam.
- Detección de sentimientos o emociones: saber qué sienten los usuarios sobre una marca, producto o servicio, utilizando datos de entrada como mensajes, comentarios o reacciones en diferentes redes sociales.
- Reconocimiento y síntesis del habla: procesar los mensajes de voz, transformarlos en texto, interpretarlos y comprender la intencionalidad de los mismos, generar la respuesta en texto, y volver a transformarla en voz a través de la síntesis de voz.
- Generación de imágenes, vídeos o música: crear nuevo contenido creativo como imágenes realistas, vídeos o música a partir de otras imágenes, vídeos o canciones similares. Las aplicaciones van desde campos como la moda y el diseño a los videojuegos.
¿Qué empresas están desarrollando e investigando en el campo de la IA Generativa?
Son muchas las compañías tecnológicas proveedoras de servicios de Machine Learning e Inteligencia Artificial que están invirtiendo en desarrollar modelos de IA Generativa; pero las que están a la vanguardia de esta tecnología son: Alphabet, Hugging Face, IBM, Microsoft, NVIDIA, OpenAI y Mistral AI.
- OpenAI es un laboratorio de investigación de IA fundado en 2015 que opera con la intención declarada de promover y desarrollar una IA amigable y democratizada. Los sistemas OpenAI se ejecutan en una plataforma de supercomputación basada en Azure de Microsoft, y algunos de sus trabajos más conocidos son IAs Generativas como ChatGPT (la IA conversacional líder) o DALL·E (la IA de generación de imágenes a partir de lenguaje natural). GPT-3.5 y GPT-4 son los modelos de LLM desarrollados por Open AI que utilizan estas aplicaciones. Mientras que GPT-3.5 es un modelo que solo acepta peticiones en texto, GPT-4 es multimodal, es decir, acepta diferentes formatos de entrada.
- Alphabet (Google) ha desarrollado una IA conversacional, antes llamada Bard y ahora Gemini, en respuesta a la enorme popularidad de Chat-GPT. Esta IA está basada originalmente en el modelo de lenguaje PaLM 2, competidor directo de GPT-4, actualmente usa el modelo de LLM llamado Gemini Pro cuando se comunica en inglés. Este modelo puede procesar y combinar diferentes tipos de información, como texto, imágenes, audio y código.
- IBM cuenta con soluciones de nivel empresarial para sus productos de IA Generativa, como su plataforma Watson X (solución de Inteligencia Artificial que permite crear modelos fundacionales y generativos) y numerosas ofertas en la nube. El pasado mes de agosto IBM participó en una ronda de financiación de USD 235 millones para la empresa Hugging Face, conocida por sus extensas bibliotecas de transformadores, piezas fundamentales de la tecnología de modelos de inteligencia artificial generativa preentrenados (GPT). Además, el 7 de noviembre anunció el lanzamiento de un Enterprise AI Venture Fund de USD 500 millones, para acelerar la tecnología y la investigación de IA generativa para la empresa.
- Hugging Face es una empresa que trabaja en el desarrollo de herramientas y bibliotecas para la implementación y distribución de modelos de IA generativa, conocida como comentábamos antes por la librería Transformers y por el LLM de código abierto BLOOM.
- Microsoft lanzó el pasado mes de noviembre Copilot, el nuevo asistente de la empresa basado en IA que sustituye a la extinta Cortana. Ya está desplegada en algunas aplicaciones del paquete Microsoft 365, y se irá incluyendo pronto en el resto de las aplicaciones. De momento permite desde resumir correos, hasta transformar documentos de Word en presentaciones de PowerPoint o resumir reuniones en caso de no haber podido asistir.
- NVIDIA cuenta con NVIDIA AI Foundations, un conjunto de servicios en la nube que promueven la IA Generativa a nivel empresarial, permitiendo la personalización en casos de uso específicos. NVIDIA NeMo ofrece crear, personalizar e implementar modelos LLM, NVIDIA Picasso permite crear IAs Generativas para aplicaciones visuales, y NVIDIA BioNeMo es una plataforma para el descubrimiento de fármacos a través de esta tecnología.
- Mistral AI es una empresa francesa fundada en 2023 por antiguos empleados de Meta y Google Deepmind. Se especializa en modelos grandes de lenguaje, como Mixtral 8x7B. Esta empresa ha anunciado un reciente acuerdo de inversión por parte de Microsoft.
¿Puedo aplicar IA Generativa en mi negocio? ¿Qué necesito?
La respuesta es sí, únicamente necesitas datos. Actualmente la IA Generativa se utiliza en una amplia variedad de sectores, desde la logística hasta la atención sanitaria o el marketing. Algunos ejemplos de casos de uso de la IA Generativa incluyen la creación de diseños de productos personalizados, la realización de resúmenes e informes, la validación de documentación, o la mejora de la experiencia del cliente mediante chatbots.
Además, según el último estudio llevado a cabo por Accenture sobre IA Generativa, esta tecnología transformará el trabajo en todas las industrias gracias a su potencial para la automatización y el crecimiento. El 98 % de los ejecutivos encuestados coinciden en que estos modelos desempeñarán un papel importante en las estrategias de sus empresas en los próximos 3-5 años.
En nuestro artículo “IA Generativa: qué es, historia, tipos y casos de uso” podrás encontrar más información sobre qué es y cómo se ha llegado a los modelos generativos actuales. Además, en nuestro Diccionario de IA Generativa podrás encontrar términos clave relacionados con esta tecnología, desde los más generales hasta los más técnicos.
¿Sigues teniendo alguna duda sobre IA Generativa o sobre cómo aplicarla en tu negocio?