La disciplina de pruebas es una de las herramientas más poderosas para la confiabilidad de los activos digitales y con la llegada de la IA muchos cuestionamientos pasan por mi mente, pues he leído y oído preguntas como: “¿Será que todas las pruebas las va a hacer una IA, sin humanos?” o afirmaciones como: “Todo lo que se construye con IA es una nota y por ser tan rápido no importa que se vaya con errores, después los corregimos” y también conversaciones donde se parte de la creencia de que probar utilizando IA se limita a que un humano cree casos de prueba, los ejecute y listo.

Pero realmente eso ya no me preocupa en este punto, hoy mi pregunta principal es: ¿Cómo va a aportar la disciplina de pruebas a la confiabilidad de los activos digitales en la era de la IA? Para resolverla quiero que comencemos por recordar la definición de pruebas para Choucair:

“Pruebas es una disciplina cuyo propósito es aportar a los indicadores de confiabilidad de los activos digitales que habilitan los procesos, servicios, o productos de un negocio. Al activar y/o observar los elementos y comportamiento de los activos digitales se pretende detectar divergencias entre lo esperado y lo materializado; adicionalmente identifica posibles restricciones del proceso: para que tanto las divergencias y las restricciones sean gestionadas, aumentando así, la posibilidad de éxito del negocio a corto y mediano plazo”.


Partiendo del supuesto de que se seguirán haciendo pruebas de una manera u otra para estar seguros del resultado, lo primero que tengo que decir es que los retos se han vuelto exponenciales de facto solo por el incremento del número de contextos de uso derivados de la llegada de la IA, contextos como:

  • Activo digital creado totalmente por humanos.
  • Activo digital creado por humanos con soporte de IA. Por ejemplo, prompts para crear código de software.
  • Activo digital totalmente creado por IA (código, arquitectura, modelo para datos, set de pruebas) donde la participación humana estará concentrada en expresar correctamente lo que se quiere.
  • Activos digitales sin uso de IA.
  • Activos digitales que usan IA para operar ciertos problemas.
  • Activos digitales con modelos totalmente agénticos.
  • Combinaciones de todo lo anterior.
  • Entrenamiento de modelos privados de IA.
  • Uso de diferentes modelos de IA como: Generativos, representacionales, entre otros.
  • En este punto haré una mención especial al tema de datos, pues ya está tomando un tinte único al volverse cada vez más relevante por la naturaleza de la IA. Su gobierno, modelación y calidad, será un factor relevante para la confiabilidad y efectividad en el uso de la IA.

“Nota para software creado por IA: Una creencia que he oído en varios espacios y en la que yo también caí momentáneamente y que de hecho tuve que retar, es que: “La IA va a reemplazar el software”. No necesariamente. Hoy cuando se habla de “crear un activo digital con IA” lo de adentro no es estrictamente IA.  Realmente a lo que se refiere es que la IA puede crear el código, modelos de datos, su arquitectura, etc. Los elementos fundamentales como el software no desaparecen, pero son construidos y/o pueden ser administrados por IA y/o utilizarla para lograr su objetivo”.

No solo es la diversidad de contextos, algo más profundo está pasando: el ciclo de vida de creación, modificación y eliminación de los activos digitales está cambiando. Ya no se trata únicamente de modelos iterativos o secuenciales, sino de formas de construcción aceleradas, simultáneas y altamente automatizadas, donde se promete que los propios activos se autocontrolan y autocorrigen. En este escenario, la disciplina de pruebas enfrenta un desafío clave:

¿Puede un sistema probarse y gobernarse a sí mismo cuando lo que está en juego es la confiabilidad del negocio?

A continuación, expondré algunas de las problemáticas que me parecen relevantes para la confiabilidad de los activos digitales en tiempos de IA y que atañen también a la disciplina de pruebas:

1. Creencia: “Si el activo digital es creado por IA, entonces está OK”

Recordemos que los modelos de IA tanto generativos como representacionales o de embedding,  se basan en representaciones vectoriales de alta dimensión y en conjuntos de pesos ajustados mediante procesos de aprendizaje estadístico. Su operación y resultados se rigen por distribuciones de probabilidad, lo que los ubica inherentemente en el mundo de lo no determinístico. Y aunque han avanzado de forma notable, persiste el riesgo de producir resultados plausibles pero incorrectos (expresados en la IA generativa como alucinaciones y, en la IA semántica, como asociaciones o inferencias erradas). Como consecuencia de su naturaleza probabilística y no determinística, la IA tiende a responder o a devolver resultados plausibles, aun cuando estos puedan ser incorrectos, si no se definen salvaguardas claras en el contexto de uso, especialmente con las transacciones que son riesgosas para el planeta, humanos y/o empresas.

2. El Accountability:

En activos digitales que incorporan IA, especialmente cuando dependen de modelos de terceros, el concepto tradicional de accountability enfrenta una ruptura. Estos sistemas operan bajo modelos probabilísticos/estocásticos, no deterministas, cuyo comportamiento interno no es completamente observable, predecible ni controlable.

Supongamos que un activo digital con elementos de IA generativa de un tercero falle en producción debido a una alucinación, que este fallo cause a su vez un impacto grave al negocio. Seguramente aparecerá la pregunta de quién responde… no me imagino a un gerente diciendo que fue “problema” de la IA, no queda como bien. Seguidamente, la pregunta saltará hacia el humano responsable de crear, modificar o eliminar la parte que causó el fallo, que, a su vez, serán unas personas competentes técnicamente, pero tampoco podrán decir que fue problema del motor de IA, porque es algo que ellos tampoco controlan. Y si vamos a la IA, tampoco habrá una respuesta, más aún, es casi imposible saber el estado del modelo vectorial en un momento determinado a ciencia cierta; cómo se comporta, cuándo se activa o cómo está quedando a medida que aprende.

Entonces ¿quiere decir que quedamos a la suerte de un modelo de IA de un tercero, que además puede alucinar porque no es determinístico? Siendo así, ¿quien es responsable? Pero ¿cómo resolver esto?

Ya sea con IA agéntica o semántica u otro modelo, cada vez dependemos más de modelos de terceros que no podemos controlar (costos, comportamiento, etc.). Lo que estoy intuyendo es que, si algo relacionado con IA falla, la Gerencia y TI de una empresa deberán demostrar: debida diligencia, decisiones informadas, gobierno del riesgo, trazabilidad.

Es decir, en ecosistemas basados en IA, la responsabilidad no desaparece: se desplaza del control total del resultado hacia la demostración de debida diligencia frente a sistemas inherentemente inciertos. Parecería que en un futuro construir activos digitales se estuviese convirtiendo en un problema de “medio” y no de “resultado”.

Con respecto a las pruebas y el accountability. Es mi sugerencia que no toda la responsabilidad de Pruebas y/o la definición del modelo de pruebas queden totalmente a discreción de la IA y/o de los constructores del activo digital. Creo que personas especializadas en la disciplina de Pruebas deben acompañar al gobierno de TI y a los constructores a entender qué métodos y/o herramientas usar, en qué partes del ciclo de vida ponerlas y/o posiblemente ejecutar algunas para maximizar la posibilidad de éxito del producto y de los procesos.

Por ahora, sugiero que para la fiabilidad y como parte de la debida diligencia, gobierno del riesgo, evidencia del proceso y decisiones informadas: los activos digitales que se construyan o sean totalmente o tengan elementos de IA, se sigan apoyando con pruebas discretas acompañadas de humanos, que permitan asegurar en cierta medida los resultados y la debida diligencia en el proceso de pruebas, especialmente aquellos de prioridad para el negocio.  Se debe aclarar que pruebas se sigue comportando como un elemento mitigador de riesgos de falla más que como la parte accountable.

3. ¿El problema principal a resolver con tecnología es la productividad?

Con la IA el tema de la velocidad y la productividad para mí trae un reto: a veces caemos en la trampa de pensar que lo que estamos resolviendo es un problema de velocidad, costos o de tecnología, pero el problema principal NO ha cambiado y el fin de los que trabajamos en tecnología de la Información sigue siendo el mismo:

Lograr de la mejor manera que la tecnología habilite productos o servicios o procesos para soportar exitosamente los objetivos y estrategia del negocio a corto, mediano y largo plazo.

Lo anterior NO desconoce el hecho de que la productividad en la creación, modificación o eliminación de un activo digital que soporta un producto, proceso o servicio puede significar el éxito o por el contrario poner en problemas a una empresa. Pero sugiero nunca olvidar que se trata de cumplir el objetivo del negocio y que la productividad es un atributo importante, pero no el único.

Esto, sin considerar el hecho de que, si se produce indiscriminadamente, lo que producimos se tiene que mantener. Los activos digitales no son “consumibles” más bien se comportan como “bienes inmuebles” que se tienen que mantener y cuidar hasta que les demos de baja (que también es un reto). Entre más hagamos, más tendremos que custodiar en todos los sentidos (utilidad, seguridad, integración, entre otros, esto atenta contra la productividad a largo plazo por el aumento de la complejidad.

Entonces la productividad es hacer las cosas que realmente se necesitan, “ser lean”, con el costo correcto, que salgan a tiempo, que no presenten problemas, que sean mantenibles, que estén en un ecosistema entendible, gobernado, seguro, trazable y principalmente que lo que se haga cumpla y exprese los objetivos y estrategia de negocio, aprendiendo en cada iteración cómo hacerlo mejor en la próxima. Todo esto es productividad y por qué no decirlo, la confiablidad para mí. Y tal vez le agregaría un toque, un poco de Teoría de Restricciones (TOC), para establecer cómo aumentar el flujo del negocio.

Todo esto refuerza que pruebas no es un freno a la productividad, sino un mecanismo para sostenerla en el tiempo.

4. La velocidad de creación de modelos, términos, conceptos y opciones de IA está creando una gran ansiedad en los que trabajamos en tecnología.

La mayoría estamos en las mismas, tratando de entender qué y cómo aplicar para sacar provecho correctamente sin generar estragos a mediano o corto plazo en los ecosistemas digitales y negocio. Entonces sugiero: observar y aplicar con la consciencia de que otra propuesta de IA puede salir mañana y reemplazar los modelos que estemos experimentando.

Las compañías siempre estamos buscando la mejor forma de relacionarnos con los elementos de tecnología.

5. La IA reemplaza al software

No dejo de pensar en el caso de Cobol (60 años de existencia), un lenguaje de programación que muchos consideran “muerto”, pero millones de líneas de este, todavía se usan para soportar transacciones que se realizan a diario, especialmente en el sector bancario.  Generalmente, las cosas que prestan un buen servicio son difíciles de reemplazar, y aunque existe la promesa de que la IA va a sustituir el software que tenemos, pasará un tiempo mientras una cosa reemplaza a la otra. Eso, si el costo-beneficio lo amerita. Entonces, seguramente lo que va a pasar es que el software y la IA van a convivir.

6. Efecto Diderot

Empresas que tengan elementos de tecnología y que estén comenzando su camino hacia la adopción de IA para habilitar sus productos, procesos y servicios, están en un Brownfield, ya que de hecho hoy lidian con altas complejidades por la cantidad de software, arquitecturas, modelos de datos, datos, diversas formas de ciclo de vida, entre otros y ahora llega la IA con la promesa de “simplificarlo todo” pero yo tomaría esta afirmación con pinzas, ya que vamos a incorporar la IA a un ecosistema que de hecho ya es complejo. Y creo además que nos tocará aceptar el “Efecto Diderot” (Si entra a tu vida algo, esta algo trae otras cosas detrás), es decir, el hecho de incorporar modelos de IA a nuestras empresas moverá otros tantos temas más, aumentando aún más la complejidad de lo que tenemos que gestionar y gobernar.

Incluso, aunque se podría argumentar que las compañías nativas de IA que comenzaron en entornos Greenfield no tienen este problema, para mí sí presentan una complejidad inherente, ya que producirán activos digitales a alta velocidad (lo que implica más activos que mantener, gestionar y gobernar). Además, dependerán en gran medida de IA generativas o semánticas de terceros y, probablemente, al paso que van las cosas, también se verán como empresas con sistemas legacy en el momento en que aparezca otra tecnología o método relevante.

La proliferación de herramientas de pruebas de IA disponibles en la actualidad nos permite observar aspectos de los activos digitales que, en el pasado, resultaban inaccesibles debido a limitaciones de tiempo o de tecnología. Este avance representa una oportunidad significativa; sin embargo, la abundancia también introduce un nuevo nivel de complejidad. En este contexto, surge de manera inevitable una pregunta fundamental: qué utilizar, cuándo hacerlo y con qué propósito.

Soy consciente que nos estamos enfrentando a nuevas formas de activos digitales de las cuales estamos descubriendo y vamos a descubrir “efectos secundarios” que tendremos que atender a mediano y largo plazo. Por ejemplo, en el caso de crear software con IA, uno de los más interesantes de estos “efectos” es el planteado como la “deuda de comprensión”, la alta velocidad de producción genera una alta cantidad de código que “suena bien”, trabaja bien, pero de cual no comprendemos en su totalidad, esto causa para cierta “ansiedad” por perdida de control, me encantó articulo “Comprehension Debt: The Hidden Cost of AI-Generated Code” de Addy Osmani, por si quieren profundizar en este tema.

Adicionalmente, la incorporación de IA en los procesos de pruebas genera efectos colaterales sobre otras áreas del ecosistema, particularmente sobre los equipos de desarrollo. Por ejemplo, en el desarrollo tradicional de software, pueden observarse, impactos como: a) Al acelerar el proceso de pruebas mediante herramientas basadas en IA (incrementando cobertura y velocidad) suele emerger un volumen de issues significativamente mayor al habitual. En una primera etapa, esto puede desbordar la capacidad de los equipos de desarrollo, que no siempre están preparados para atenderlas de forma inmediata. No obstante, un efecto positivo es que estas limitaciones se hacen visibles, permitiendo su gestión informada. b) Cuando la función de Pruebas deja de ser el principal elemento restrictivo del proceso de desarrollo, la restricción del sistema se desplaza. Esto conduce, de manera natural, a que los equipos revisen y, en muchos casos, reconfiguren su forma de trabajar con el fin de alinearse a la velocidad que el proceso de pruebas es capaz de alcanzar.


Conclusiones

Creo esto hasta el momento, pero advierto que mi opinión puede cambiar por la velocidad a la que están pasando las cosas.

Cómo navegar un mundo lleno de oportunidades. Me acuerdo de Eli Goldratt y su concepto de simplicidad inherente, el reto será cómo encontrarla cuando se agregue un elemento tan disruptivo como la IA en un mundo, que de hecho ya es complejo, y a la vez protegiendo la confiabilidad de los ecosistemas digitales y los intereses del negocio. Creo que este será el reto para los que trabajamos en TI. Observar, retar creencias, retar métodos, experimentar y concluir, mejor dicho, probar.

Con respecto al proceso de pruebas debo decir que, por su naturaleza, es una de las principales herramientas de custodia de la confiabilidad de los activos digitales y cada día será más relevante. El cómo aplicar pruebas es la cuestión. Estoy convencida de la importancia de la participación de humanos especializados, dedicados e involucrados en la disciplina de Pruebas, pero esto implicará que adopten un modelo distinto con un profundo acercamiento al negocio y a lo técnico. Repensar lo que hacemos y cómo lo hacemos.

Al final, todos los involucrados en los procesos de construcción de IA, tendremos que convertirnos de alguna manera en probadores: custodios de los productos resultantes de IA. Y saber de pruebas no sobra.

¡Un saludo!

María Clara Choucair Cárdenas, CEO Choucair Testing


Notas para el lector:

(1) Activo Digital: en este artículo se refiere a cualquier producto de software, datos, IA, blockchain entre otros, que genere valor al negocio. Se utiliza el término “activos” para acompañar al término digital ya que estos elementos (agentes, software, datos, etc.) cumplen con la definición de activo, pues tienen variables CAPEX, OPEX y retorno de inversión y podrían ser parte del inventario de activos de una compañía.

(2) Pruebas no es aseguramiento de la calidad (QA): Pruebas es una disciplina enmarcada en el mundo de control de calidad del producto (aporta a la disminución del riesgo o aumento de la posibilidad de éxito del producto) que en nuestro caso es el activo digital. Pruebas a su vez nutre con información y gestión al proceso de aseguramiento de calidad al descubrir restricciones que afectan negativamente el flujo de los procesos que construyen, modifican o eliminan el producto.