Este blogpost forma parte de una serie de 4 blogs, orientados a mostrar el impacto y aplicación de la IA. En esta cuarta y última parte se introducirá la inteligencia artificial generativa, la cual en el último tiempo ha tenido un crecimiento exponencial. Además de explicar los principales casos de uso y limitaciones importantes, se buscará responder preguntas sobre cuando es buena idea utilizar este tipo de modelos y cuando es mejor optar por un modelo de Machine Learning clásico.
Desde el boom de ChatGPT, la IA generativa (GenAI) ha tenido un crecimiento exponencial y se espera que siga creciendo. Para 2025, se estima que el 30% de las empresas habrán implementado una estrategia de Gen AI, en comparación con un 5% durante 2021 (fuente). Sin embargo, hay poco conocimiento sobre los casos de uso y las aplicaciones que tiene. Más de un 70% de los líderes de las organizaciones establece tener conocimiento limitado o no tener conocimiento de GenAI, como se puede observar en la Figura 1.
Figura 1: Sin conocimiento = desconocimiento de cualquier caso de uso de GenAI; conocimiento limitado = conocimiento de los principales casos de uso de GenAI en la industria; gran conocimiento = dominio de los casos de uso de GenAI para su organización y ramificaciones (fuente)
En palabras simples, GenAI es un subconjunto reducido de Machine Learning (ML) y, como tal, es otra herramienta que se puede utilizar para resolver problemas. Pero ¿cuándo es buena idea usar GenAI? ¿Es realmente una bala de plata para cualquier problema o hay casos en que puede ser una solución subóptima? Estas serán algunas de las preguntas que se buscan resolver en este blogpost.
La Inteligencia Artificial Generativa (GenAI), como su nombre lo indica, hace referencia a inteligencia artificial que genera nuevo contenido utilizando modelos de Deep Learning (DL). Estos toman datos no estructurados (texto, imágenes o videos) y aprenden a generar outputs estadísticamente probables cuando se les hace una solicitud (prompt). Estos modelos codifican una representación simplificada de los datos de entrenamiento, y se basan en ella para crear un nuevo output que sea similar pero no idéntico a los datos originales (fuente).
Los modelos de GenAI se basan en grandes modelos de lenguaje natural denominados LLMs (por sus siglas en inglés). Los LLMs hace de “puente” entre el lenguaje que usamos los humanos, que es el habla, y su versión codificada.
Como se puede ver en la Figura 2, este tipo de modelos se encuentran dentro de lo que denominamos Machine Learning (ML) y en el subconjunto específico de Deep Learning. Como se puede observar, GenAI consiste en un área muy pequeña de lo que se denomina Inteligencia Artificial.
Figura 2: inspirada en la siguiente fuente del módulo de GenAI
A pesar de que los modelos de GenAI se encuentran dentro de lo que se conoce como modelos de ML, su forma de uso es muy distinta a los modelos clásicos de este conjunto. Por lo general los modelos de ML clásicos tienen dos posibles finalidades: una, en el entrenamiento no supervisado, es encontrar y entender patrones ocultos en los datos (clustering, reducción de dimensionalidad, entre otros); y la segunda finalidad es predecir con datos (clasificación, regresión, forecasting). Al tratar de clasificar GenAI en una de estas dos finalidades, uno se da cuenta que no se usa ni para entender los datos ni para predecir con estos, si no que se utiliza para generar contenido utilizando un input de los usuarios. Y esa es la mayor diferencia: crear nuevos datos utilizando como base lo aprendido mediante el entrenamiento.
Otra diferencia está en el uso de modelos fundacionales [1]. Al igual que en el DL, en GenAI se puede utilizar fine tunning [2] para adaptar modelos a nuevas tareas. Otra opción para emplear modelos fundacionales sin la necesidad de reentrenar es con prompt engineering, que consiste en un proceso iterativo de creación de instrucciones específicas para guiar al modelo en la generación de respuestas deseadas.
Se podría pensar que los modelos de GenAI tienen una gran ventaja, ya que nos permiten generar soluciones, en muchos casos, sin siquiera entrenar el modelo con nuestros datos. Para muchos casos de uso, esto puede ser cierto, hay que tener claro que los modelos de GenAI no son una bala de plata y no funcionan para todos los problemas. Es más, utilizar modelos de GenAI cuando no corresponde, puede generar soluciones subóptimas que no funcionen bien. Esto es principalmente porque los modelos de AI discriminativa funcionan en la mayoría de los casos de manera superior en la tarea en la que fueron entrenados. La recomendación es que, cuando se va a implementar una solución que contemple GenAI, lo primero es preguntarse si existe alguna tecnología que ya pueda realizar la tarea encomendada de manera correcta. En la mayoría de los casos, esta pregunta puede ahorrar decepciones que se podrían encontrar con los modelos de GenAI.
Como ya se explicó anteriormente, GenAI es útil en casos donde se requiera generar contenido nuevo como imágenes, textos, videos o audios (fuente). Esto se debe a la gran cantidad de datos en los que estos modelos han sido entrenados, lo cual les permite generar contenido de alta calidad e innovador a partir de un prompt proporcionado por el usuario.
Los modelos de GenAI pueden ser útiles cuando la solución requiere un alto nivel de personalización hacia el cliente. Este podría ser el caso de las interfaces de conversación (tipo chatbots), donde las personas escriben de manera diversa e impredecible. La capacidad de estos modelos para utilizar toda la información obtenida durante el entrenamiento, junto con la representación que generan del lenguaje, los hace superiores en muchos casos a modelos que no utilizan LLMs. Pero, hay que tener en cuenta que no todos los modelos que utilizan o son LLMs son considerados modelos de GenAI; un ejemplo de esto es BERT (Devlin et al., 2019), un LLM que no está considerado como GenAI.
Otro caso de uso es en la generación de códigos o insumos para apoyar a los colaboradores. Modelos como Copilot ya están ayudando a los programadores a realizar su trabajo de manera más fácil y rápida. Es importante destacar que, si bien estos modelos pueden apoyar el trabajo de las personas, están lejos de poder reemplazarlas. Esto se debe principalmente a las limitaciones de los modelos de GenAI. Lo cual se suma que las personas que conocen cómo realizar una tarea tienden a generar prompts mucho mejores, utilizando términos más específicos, lo cual permite que la respuesta de estos modelos sea más precisa.
Siguiendo los lineamientos anteriores, y considerando si existe alguna tecnología que pueda resolver completamente la tarea, el uso de GenAI es recomendado. El uso de estos modelos puede resultar en una disminución de tiempo en el desarrollo de soluciones. Según un estudio de Mckinsey, GenAI ha aumentado en 20% la estimación del porcentaje total de horas que teóricamente se podrían automatizar (fuente).
El potencial de GenAI es indudable, las compañías tienen que empezar a trabajar en su implementación. Sin embargo, es importante considerar que, como toda herramienta, estos modelos tienen limitaciones.
Su principal limitación tiene que ver con los costos computacionales. Este tipo de modelos no solo requieren un hardware de varias GPUs, sino que además genera alta demanda en memoria RAM, lo cual hace que sea muy complejo entrenar un modelo desde cero, en especial para organizaciones pequeñas. Es por esto por lo que las soluciones que se generan con este tipo de tecnologías hacen uso de modelos fundacionales. Incluso, hacer fine tunning de estos modelos puede ser particularmente costoso dependiendo de cuanto uno quiera entrenar además del número de capas.
Lo anterior hace que alojar este tipo de modelos en un servidor local sea complejo y que la solución de manera casi obligatoria tenga que venir desde modelos ya existentes como el propio ChatGPT mediante APIs.
Además de los costos monetarios que implica la obtención de hardware, los modelos de GenAI generan costos energéticos increíblemente altos dependiendo del tipo de modelo que se esté utilizando. El trabajo realizado por investigadores de HuggingFace (Luccioni et al., 2023) muestra en la Figura 3 como se distribuyen las emisiones de CO2 de los distintos tipos de modelos por cada 1000 prompts. En este se puede ver cómo, desde los modelos de generación de texto en adelante, se tiene una emisión de CO2 considerablemente más alta a la que encontramos en modelos de clasificación o de extracción de respuestas desde el texto. Este estudio muestra que el modelo de generación de texto más eficiente consumiría el 16% de un smartphone completamente cargado, mientras que el de generación de imágenes más ineficiente lo haría por el equivalente a 950 smartphones completamente cargados (11.49 kWh). Esto equivale a casi una carga de smartphone por cada imagen generada (depende tanto del tamaño de la imagen como del tamaño utilizado).
Figura 3: Gráfico que muestra la cantidad de emisiones de CO2 por modelo, por cada 1000 prompts (Luccioni et al., 2023)
Otra limitación que presentan estos modelos al ser implementados en producción está relacionada con la forma en que generan sus respuestas. Como se mencionó anteriormente, los modelos que transforman texto en representaciones numéricas generan la siguiente palabra mediante probabilidades. Esto hace que sean eficientes en la representación de la distribución de probabilidades del lenguaje y, por ende, produzcan texto coherente. Sin embargo, aunque el texto pueda ser coherente, en muchos casos es posible que el modelo capture patrones que sean inexistentes, lo que resulta en outputs que carecen de sentido o son directamente falsos. A este fenómeno se le denomina alucinaciones (fuente). Esto implica que, si bien los modelos de GenAI son efectivos en la generación de contenido, dicho contenido puede ser incorrecto o inapropiado para la tarea encomendada. Por lo tanto, no se recomienda su uso en situaciones donde el usuario no pueda verificar de inmediato la salida del modelo.
Como ejemplo, si se busca generar contratos en un estudio de abogados, es crucial que haya un abogado al final del proceso que revise y verifique que el contrato generado por el modelo sea correcto, ya que esto puede prevenir problemas graves. Existen técnicas para mitigar las alucinaciones, las cuales suelen basarse en mejorar el prompt entregado al modelo (para más detalles sobre este tema, consultar fuente).
Tomando en cuenta que es muy poco probable que una empresa pueda entrenar su propio modelo de GenAI, y que lo más factible es utilizar APIs de empresas que lo proveen, uno no puede asegurar que la calidad de los datos con los que se entreno el modelo. Por lo general, estos modelos se entrenan a partir de páginas de internet que se han obtenido mediante web scraping. Esto genera que los datos contengan cierto nivel de sesgo sobre los modelos.
Un ejemplo de esto se puede ver en la Figura 4, donde se evidencia la gran diferencia del output entregado por el modelo cuando se le pide generar un hombre y una mujer americana. En el primer caso se presenta un hombre de negocios serio, en el segundo caso una modelo. Este tipo de sesgos, al igual que discursos de odio, pueden ser encontrados en internet, lo que significa que los modelos entrenados con esa data también los tendrán. Para más información puede revisar fuente.
Figura 4: obtenida a partir de fuente
Por último, los modelos de GenAI tienen la limitación de que su capacidad generativa está restringida a los datos más recientes utilizados para su entrenamiento. Es decir, no pueden responder de manera precisa a eventos posteriores a su entrenamiento. Por esta razón, han surgido técnicas para sortear esta limitación, como el uso de enfoques como el Retrieval-augmented generation (RAG), que busca mejorar la precisión y confiabilidad de los modelos al incorporar hechos obtenidos de fuentes externas en el prompt (fuente), eso no solamente permite que él modelo pueda responder con información más allá con la que se entrenó sino que es utilizado en muchos casos para reducir las alucinaciones ya que se le entrega información factualmente correcta al modelo.
Ya establecido el contexto de las limitaciones y beneficios de utilizar modelos de GenAI, podría surgir la pregunta: ¿en qué y para qué se están utilizando en la industria actualmente? La Facultad de Negocios de Harvard tiene un artículo donde, mediante análisis web, se examina el uso actual de GenAI en diferentes sectores (fuente). A modo de resumen, el siguiente listado muestra las categorías con el porcentaje de cada una:
Se puede ver que hoy en día los modelos de GenAI están siendo utilizados para trabajos que consideren la creación de contenido o como asistente virtual. Esto, como se mencionó anteriormente, son casos de uso que siguen los lineamientos anteriormente descritos. Todas estas soluciones tienen la particularidad de no encontrarse en la toma de decisiones relevante de las empresas, sino que se utilizan como apoyo a los trabajadores, ya sea para corregir código, crear contenido, obtener insights o educarse.
Empresas como Amazon están utilizando GenAI para sumarlo a la propuesta de valor de productos como Alexa, permitiendo que los usuarios puedan generar una interacción más profunda con el dispositivo pidiéndole que haga tareas como generar mensajes. También lo están utilizando para mejorar la descripción de productos, para la gente que vende artículos en su marketplace. Además, están utilizando la generación de imágenes para hacer mejores anuncios para vender productos. Existen más usos de cómo Amazon está ocupando GenAI y se pueden ver en el siguiente link. Por otro lado, empresas como Meta también están generando anuncios con GenAI, mejorando la experiencia en sus chatbots, entre otras aplicaciones (fuente).
Ahora, es importante también que se considere que los modelos de GenAI no son excluyentes con otros modelos de IA y el verdadero potencial de estas tecnologías es la posibilidad de crear técnicas que permitan justamente mezclar ambas soluciones. En palabras de Leinar Ramos (Senior Director Analyst en Gartner) “las organizaciones que desarrollan la capacidad de combinar las técnicas de IA adecuadas están en una posición única para construir sistemas de IA que tengan una mejor precisión, transparencia y rendimiento, al mismo tiempo que reducen costos y la necesidad de datos” (fuente).
Por último, el rol de las consultoras en este proceso de implementación de tecnologías con IA está ligado a entender cuándo y cómo usarlas para sacar su máximo potencial. Usar una herramienta sin un fin claro es menos útil que tener claridad de que se busca obtener y con eso en mente utilizar la herramienta apropiada para la tarea.
El blog aborda cuándo es adecuado utilizar modelos de GenAI, sugiriendo primero investigar si existen tecnologías tradicionales que resuelvan el problema sin este tipo de modelos. Este es un paso crucial para determinar su uso. También se señala que, aunque GenAI ofrece varios beneficios, tiene limitaciones significativas que deben tenerse en cuenta. GenAI no es una solución universal, sino una herramienta adicional con pros y contras.
Es muy importante seguir avanzando en estas tecnologías y en Brain Food estamos expectantes de saber que les depara el futuro. No es una buena idea sumarse a la emoción de utilizar estas tecnologías si la organización no tiene ninguna necesidad de aplicarlas. Utilizar estas tecnologías por el puro hecho de ser nuevas y no saber bien dónde aplicarlas simplemente dividirá esfuerzos en la organización y no asegurará una correcta implementación que sume valor al producto que verá el cliente.
Por último, se debe recordar que el rol de las consultoras en este espacio es justamente entender cómo utilizar estas tecnologías y más importante aún, saber cuándo es necesario ocuparlas para darle al cliente una buena solución que perdure en la empresa y tenga estándares altos de desempeño y definición técnica.
[1] Los modelos fundacionales son grandes modelos basados de lenguaje que sirven como punto de partida para desarrollar aplicaciones de aprendizaje automático de manera más eficiente, al estar entrenados en una amplia gama de datos no etiquetados y ser capaces de realizar diversas tareas generales
[2] Proceso que implica tomar un modelo que desempeñe una tarea similar y luego ajustar las últimas capas con datos diferentes para adaptar la salida del modelo. Por ejemplo, podríamos utilizar como base un modelo de detección de perros y gatos para realizar la detección de caballos. Cuando es utilizado en GenAI puede ser costoso dependiendo de que porcentaje del modelo deseemos rentrenar.