¿Qué es más importante a la hora de abordar un proyecto de Inteligencia Artificial, la calidad o la cantidad de datos? Te lo contamos en este artículo.
El boom de los datos y las posibilidades que ofrecen
A diario en el mundo se generan cerca de 2.5 trillones de bytes de datos. Estas cifras vienen aumentando desde hace años debido a la hiper-conectividad en la que vivimos, inducida por la digitalización, Internet of Things y las redes sociales. Los ecosistemas Big Data son capaces de capturar, almacenar y manejar grandes volúmenes de datos, poniendo las bases para explotar analíticamente su información, y extraer el valor de ellos. Este hecho resulta una verdadera mina de oro para las empresas, que pueden sacar valor de los datos para mejorar procesos, minimizar costes o maximizar los beneficios.
Según el estudio Global Data Protection Index de Dell EMC, la cantidad de datos que gestionan las organizaciones se ha incrementado en un 569% de 2016 a 2018. Esta gran cantidad de información disponible ayuda al proceso de análisis de datos para la mejora de la toma de decisiones empresariales.
Las diferentes técnicas de analítica avanzada e Inteligencia Artificial nos ayudan a entender mejor los procesos de negocio. Conocer qué ha pasado (Analítica Descriptiva), por qué ha ocurrido (Analítica Diagnóstica), qué ocurrirá en el futuro (Analítica Predictiva), y cuál es la mejor decisión a tomar entre todas las posibles (Analítica Prescriptiva).
La calidad de los datos es decisiva en los resultados
Pero esta gran cantidad de información disponible también supone un desafío, ya que casi el 80% de los datos generados son erróneos o incompletos y, por tanto, carentes de valor para la toma de decisiones empresariales.
La calidad los datos es importante a la hora de aplicar técnicas analíticas o de Inteligencia Artificial, porque los resultados de estas soluciones serán tan buenos o malos como la calidad de los datos utilizados.
El hecho de introducir datos erróneos o sesgados conlleva unos riesgos. Los algoritmos que alimentan los sistemas basados en Inteligencia Artificial sólo pueden asumir que los datos a analizar son fiables, así que en caso de que sean erróneos, los resultados serán engañosos y el proceso de toma de decisiones se verá comprometido. Además, el tiempo y los recursos utilizados para realizar el análisis de datos habrá resultado inútil, lo que conlleva gastos.
¿Qué es mejor entonces, calidad o cantidad de datos?
En general, una mayor cantidad de datos conduce a modelos más fiables y por tanto mejores resultados, pero siempre que estos sean reales y representativos. Es preferible usar menos cantidad de datos, que más volumen pero con una baja calidad. Aunque a veces la cantidad de datos de calidad es insuficiente para poder entrenar y modelizar el problema a resolver, y por tanto, proporcionar una solución basada en Analítica de datos e Inteligencia Artificial.
Otro problema recurrente es que, aunque el conjunto de datos a analizar sea suficiente para sacar el máximo provecho de los sistemas de Inteligencia Artificial, siempre se tiende a recopilar datos adicionales debido al bajo coste de almacenamiento y la potencia de procesamiento. La tendencia actual de generación y almacenamiento de grandes volúmenes de información no parece que vaya a disminuir en el futuro. Por eso es importante que las empresas establezcan un conjunto de reglas y procedimientos que definan y regulen como serán tratados los datos. Para facilitar la gobernabilidad de datos y garantizar el éxito de las soluciones de IA y analítica avanzada.