EnciclopedIA

Tu diccionario de la Inteligencia Artificial y la Analítica Avanzada

A B C D E F G H I J K L M N O P R S T U V W

Aa

ACID

En bases de datos se denomina ACID a las características de los parámetros que permiten clasificar las transacciones de los sistemas de gestión de bases de datos. Cuando se dice que una acción es ACID compliant se indica -en diversos grados- que esta permite realizar transacciones.

Agile

Agile (ágil) es una modalidad de gestión de proyectos desarrollada para proporcionar a los gestores de proyectos una forma más flexible, rápida y eficiente de comercializar productos. Se basa en entregas de productos intermedios en pequeños pasos (sprints), que pueden ser evaluados y mejorarse rápidamente.

Algoritmo

Conjunto ordenado y finito de pasos u operaciones que permite realizar una determinada tarea o hallar la solución de un problema a través de datos.

Análisis de componentes principales (ACP)

Es un algoritmo de aprendizaje automático que busca reducir la dimensionalidad de un conjunto de variables observadas a un conjunto de variables sin correlación lineal, llamadas componentes principales. Para ello calcula la dirección con la mayor varianza y la define como componente principal. Se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos.

Análisis del sentimiento

El análisis de sentimiento o sentiment analysis consiste en la evaluación de emociones, actitudes y opiniones de los clientes. Las organizaciones utilizan este método para obtener información que les permita comprender la forma en la que los clientes reaccionan respecto a un producto o servicio específico.

Analítica avanzada

La analítica avanzada es una disciplina de análisis de datos que utiliza modelos descriptivos, diagnósticos, predictivos, prescriptivos y cognitivos para analizar y extraer conocimiento y valor de los datos.

Analítica cognitiva

Se trata de la más alta evolución de la analítica. Recoge un amplio número de técnicas englobadas dentro de la inteligencia artificial que permiten entender, aprender, reconocer y reproducir el funcionamiento de la mente humana.

Estas técnicas están revolucionando las relaciones entre las personas y las máquinas por ejemplo, a través de sistemas capaces de participar en un diálogo ﬂuido con los usuarios, como los chatbots.

Analítica descriptiva y diagnóstica

Dentro de las técnicas de analítica avanzada, la analítica descriptiva y la analítica diagnóstica son las más básicas. Recopilan datos históricos y actuales y los muestran de una forma visual y fácil de entender, por ejemplo a través de dashboards o gráficos. Puede así conocer qué ha pasado con un determinado KPI a lo largo del tiempo y detectar por qué han ocurrido ciertas desviaciones.

Actualmente el 90% de las empresas utilizan este tipo de técnicas, que son la base de las herramientas de Business Intelligence.

Analítica predictiva

Conjunto de técnicas y modelos estadísticos y de aprendizaje automático (Machine Learning) capaces de extraer conocimiento de datos pasados para poder predecir tendencias y patrones de comportamiento futuros.

La fiabilidad y usabilidad de los resultados de estos modelos dependen mucho de la calidad y del nivel de análisis del dato.

Analítica prescriptiva

Conjunto de técnicas y modelos capaces de utilizar los datos históricos (analítica descriptiva y diagnóstica) y las predicciones futuras (analítica predictiva), para recomendar o “prescribir” las mejores acciones a llevar a cabo para agilizar la toma de decisiones y alcanzar los objetivos de negocio.

Por ejemplo puede recomendar el producto con mayor posibilidad de compra, seleccionar las campañas comerciales de mayor retorno, elegir la ruta óptima con el menor coste posible, minimizar el uso de recursos garantizando los plazos de entrega, etc.

API

Una API o interfaz de programación de aplicaciones es un conjunto de definiciones, funciones y protocolos que se usa para diseñar e integrar el software de las aplicaciones. Sirve de comunicación entre componentes de software, ofreciendo acceso a ciertos servicios desde los procesos.

Aplicaciones componibles

Son aplicaciones formadas por bloques de construcción intercambiables. Contar con una arquitectura de aplicaciones componibles permite a las organizaciones adaptarse a los cambios de una manera más rápida, segura y eficiente, aumentando enormemente la velocidad de implementación de nuevas funciones.

Aprendizaje automático

Es un conjunto de técnicas capaces de programar algoritmos y modelos para realizar una determinada tarea usando grandes cantidades de datos. En estas técnicas los algoritmos aprenden por sí solos sin haber sido programados de forma explícita para ello. Son capaces de aprender patrones / comportamientos de los datos y generalizarlos para poder inferir / predecir comportamientos futuros.

Aprendizaje no supervisado

El aprendizaje no supervisado se realiza cuando no se dispone de datos “etiquetados” para el entrenamiento. Sólo conocemos los datos de entrada (variables explicativas), pero no existen datos de salida que correspondan a un determinado input (variable de salida). Por tanto, sólo podemos describir la estructura de los datos, agrupándolos o categorizándolos según sus variables explicativas, para intentar encontrar algún tipo de organización que simplifique el análisis.

En esta clasificación encontramos los algoritmos de segmentación o clustering utilizados para el perfilado de clientes o productos, motores de recomendación, etc.

Aprendizaje profundo

Se podría decir que un modelo de aprendizaje profundo o Deep Learning es un algoritmo multicapa que va identificando detalles en sucesivos niveles de abstracción. Se diferencia del resto de técnicas de aprendizaje automático por su mayor número de transformaciones aplicadas al input del modelo conforme se propaga desde la capa de entrada al modelo (input layer) hasta la de salida (output layer).

Este tipo de técnicas se aplican en forma de redes neuronales, formadas por capas que transforman las variables de entrada en base a una serie de pesos y umbrales a entrenar. No existe un estándar que determine el número mínimo de transformaciones o capas que debe incluir una red para considerarse un algoritmo de Deep Learning.

Por ejemplo, para clasificación de imágenes en un primer nivel podría identificar líneas, en el siguiente formas como combinaciones de líneas, luego objetos como combinaciones de formas, etc.

Aprendizaje supervisado

En el aprendizaje supervisado, los algoritmos trabajan con un conjunto de datos conocidos (labeled data) intentado encontrar una función que, dadas las variables de entrada o variables explicativas (input data), les asigne la etiqueta de salida adecuada (output data). El algoritmo se entrena con un histórico de datos y así aprende a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor da salida (target).

El aprendizaje supervisado se suele usar en problemas de:

Clasificación (variables categóricas), como reconocimiento de imágenes, predicción de fuga o detección de fraude.
Regresión (variables continuas), como predicciones meteorológicas, crecimiento de población, expectativa de vida, predicción de demanda, etc.

Árbol de decisión

Un árbol de decisión es un tipo de algoritmo de aprendizaje supervisado (aquellos que tienen una variable objetivo predefinida) que se suele usar en problemas de clasificación. Funciona tanto para variables de entrada/salida continuas y categóricas.

En esta técnica, se divide la población (o muestra) en dos conjuntos homogéneos (o subpoblaciones) basados en el criterio diferenciador de las variables de entrada que resulte más significativo.

Arquitectura software

Una arquitectura software es un conjunto de patrones y abstracciones coherentes que proporcionan un marco definido y claro para interactuar con el código fuente del software. Está formada por componentes que llevan a cabo alguna tarea de computación, sus interfaces y la comunicación entre ellos.

Existen diferentes tipos de arquitecturas software según su naturaleza: en la nube (cloud), monolíticas, de microservicios, y diferentes tipos de patrones arquitectónicos: cliente-servidor, de capas, intermediario, de igual a igual, bus de evento, etc.

As-a-Service

El modelo de negocio o comercialización As-a-Service (AaS) es aquel que pone a disposición de las compañías soluciones software como un servicio. De esta forma las compañías no necesitan instalar, mantener y actualizar hardwares ni softwares.

Automatización

La automatización consiste en usar la tecnología para realizar tareas casi sin intervención humana. Se pueden automatizar procesos, sistemas y decisiones en cualquier sector en el que se lleven a cabo tareas repetitivas.

Automatización robótica de procesos (RPA)

Consiste en el uso de robots de software para realizar las tareas repetitivas de las que solían encargarse las personas.

AWS

Amazon Web Services (AWS) es una plataforma de computación en la nube pública ofrecida por Amazon. Es una de las plataformas cloud más importantes junto a Azure, Google Cloud e IBM Cloud. La utilizan compañías tan importantes como Dropbox, HootSuite o Foursquare.

Azure

Azure es la plataforma de computación en la nube de Microsoft. Al igual que AWS, Google Cloud o IBM Cloud, permite almacenar información y crear, administrar e implementar aplicaciones en un entorno cloud.

Ff

Federated Learning

Federated Learning o entrenamiento con datos federados se refiere a un contexto muy concreto de proceso de entrenamiento de un algoritmo en el que los datos están distribuidos disjuntamente entre distintos nodos. Para evitar los sesgos ya que el algoritmo no es capaz de ver todos los datos al mismo tiempo, se debe cambiar la estrategia de entrenamiento. Es un paradigma en el que distintos entes pueden aprovechar los datos de la otra sin que eso implique una compartición directa de información.

Fast Data

Los datos rápidos o fast data, son datos en tiempo real que suelen llegar en streaming -como a través de las tecnologías del Internet de las Cosas (IoT) y las aplicaciones basadas en eventos- y se analizan rápidamente para tomar decisiones empresariales rápidas.

Fichero Log (Log File)

Los logs son archivos en los que se almacenan datos de procesos tanto en softwares como en aplicaciones. El conjunto de dichos archivos forma lo que se conoce como fichero log.

Forecasting

Forecasting o pronóstico es el proceso de estimación en situaciones de incertidumbre, es decir, hacer predicciones basadas en datos pasados y presentes y, por lo general, mediante el análisis de tendencias. Se utiliza generalmente para la previsión y planificación de la demanda.

Función de activación

Una función de activación es una función que transmite la información generada por la combinación lineal de los pesos y las entradas, es decir son la manera de transmitir la información por las conexiones de salida. Como lo que queremos es que la red sea capaz de resolver problemas cada vez más complejos, las funciones de activación generalmente harán que los modelos sean no lineales.

Las más conocidas son la función escalón, la sigmoidal, las funciones ReLu, de tangente hiperbólica o de base radial (Gausianas, multicuadráticas, multicuadráticas inversas).

Hh

Hadoop

Hadoop es una estructura de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona un almacenamiento masivo para cualquier tipo de dato, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.

Heurística (algoritmos heurísticos)

La heurística se refiere a la disciplina, el arte o la ciencia del descubrimiento (búsqueda). Los algoritmos heurísticos sacrifican la exactitud de la solución en favor del tiempo de respuesta, es decir, intentan obtener soluciones lo suficientemente buenas con un tiempo de respuesta corto o aceptable.

Estos algoritmos de optimización basados en búsquedas locales recorren el espacio de soluciones tratando de conseguir una buena solución en un tiempo razonable para minimizar o maximizar un valor y tratando de evitar quedarse estancados en mínimos o máximos locales. Parten de una solución y la modifican aplicando ciertos operadores para calcular soluciones vecinas que mejoren la calidad de la solución inicial. Estas técnicas de búsqueda se aplican a problemas NP-completos en los que el espacio de búsqueda es muy grande y es necesario el uso de funciones heurísticas para eliminar rutas de búsqueda no prometedoras.

Hiperautomatización

La Hiperautomatización, automatización de procesos digitales o automatización inteligente de procesos, es la disciplina que combina distintas tecnologías con capacidades de optimización, predicción y automatización basadas en IA, cuyo objetivo es facilitar la digitalización de procesos de negocio de extremo a extremo buscando su eficiencia y el incremento de las habilidades de las personas en cada área de la compañía.

Hiperplano

Es un límite que separa el espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos dimensiones, y un plano es un hiperplano en tres. En aprendizaje automático, un hiperplano es el límite que separa un espacio de muchas dimensiones. Los algoritmos Kernel Support Vector Machine usan hiperplanos para separar las clases positivas de las negativas en espacios multidimensionales.

Hipervisor

Un hipervisor puede ser un software, firmware o hardware. Independientemente de la forma que adopte, funciona como un VMM (monitor de máquina virtual) y es una capa que abstrae los recursos del hardware y crea máquinas virtuales que ejecutan los sistemas operativos y las aplicaciones.

Histograma

Es una representación gráfica de un conjunto de datos numéricos, normalmente, en forma de gráfico de barras verticales.

Jj

Java

Java es un lenguaje de programación y una plataforma informática comercializada por primera vez en 1995 por Sun Microsystems. Es uno de los lenguajes de programación más populares en uso, particularmente para aplicaciones de cliente-servidor de web, con unos diez millones de usuarios reportados. Se caracteriza por ser rápido, seguro y fiable.

Java Script

JavaScript (abreviado comúnmente JS) es un lenguaje de programación interpretado, dialecto del estándar ECMAScript. Se define como orientado a objetos, basado en prototipos, imperativo, débilmente tipado y dinámico.

Se utiliza principalmente del lado del cliente, implementado como parte de un navegador web permitiendo mejoras en la interfaz de usuario y páginas web dinámicas y JavaScript del lado del servidor (Server-side JavaScript o SSJS). Su uso en aplicaciones externas a la web, por ejemplo en documentos PDF, aplicaciones de escritorio (mayoritariamente widgets) es también significativo.

JSON

Es una forma de representar los literales de los objetos, las matrices y los datos escalares de JavaScript basada en texto. JSON es relativamente fácil de leer y escribir, y también es fácil de analizar y generar para el software. Suele utilizarse para serializar datos estructurados e intercambiarlos a través de una red, normalmente entre un servidor y las aplicaciones web.

Ll

Latencia

La latencia es el tiempo que transcurre entre una orden y la respuesta que se produce a esa orden concreta. En ciencia de datos podemos decir entonces que es el retardo producido por la demora en la propagación y transmisión de paquetes de datos dentro de la red.

Lenguajes de programación de script

Los lenguajes de programación de script pueden ejecutarse directamente sin necesidad de compilarlos antes en código binario, como ocurre con lenguajes como Java y C. La sintaxis de los lenguajes de script es mucho más sencilla que la de los lenguajes compilados, lo facilita en gran medida las tareas de programación y ejecución. Algunos ejemplos de este tipo de lenguajes son Python, Perl, Rubi, etc.

Librería

Conjunto de implementaciones funcionales, codificadas en un lenguaje de programación, que ofrece una interfaz bien definida para la funcionalidad que se invoca.

Librería estándar (Python)

Una librería es un conjunto de módulos. La librería estándar de Python es muy amplia y ofrece una gran variedad de módulos que realizan funciones de todo tipo, desde módulos escritos en C que ofrecen acceso a funcionalidades del sistema como el acceso a ficheros. En la web de Python se puede encontrar una referencia a todos los módulos en “The Python Standard Library”. Los instaladores de Python para plataformas Windows, normalmente incluyen la librería estándar completa, incluso algunos componentes adicionales. Sin embargo, en las instalaciones Python mediante paquetes harán falta instaladores específicos.

LibSVM

Es una librería de C++ que resulta muy útil para trabajar con máquinas de vectores de soporte (SVM). Sirve para resolver problemas de clasificación y regresión.

Lingüística computacional

Conocido también como procesamiento de lenguaje natural PLN. Es una rama de las ciencias de la computación que analiza el lenguaje hablado y lo convierte en datos estructurados que se pueden usar como comandos lógicos en un programa. En un principio, el foco estaba en traducir de un lenguaje a otro, o aceptar frases completas como consultas a bases de datos. En la actualidad, los esfuerzos se centran en analizar documentos y otros datos, para extraer información potencialmente valiosa.

LISP

Acrónimo de List Procesor, es un lenguaje creado por John McCarthy, hoy considerado por muchos como el padre de la Inteligencia Artificial. Su idea era optimizar el funcionamiento y el uso de recursos en los ordenadores de la época. Este nuevo lenguaje, basado en parte en el ya existente Fortran, utilizaba algunas técnicas innovadoras como las estructuras de datos de árbol o el uso de la computación simbólica de la cual nacería posteriormente la programación simbólica.

Logaritmo

En análisis matemático, usualmente, el logaritmo de un número real positivo —en una base de logaritmo determinada— es el exponente al cual hay que elevar la base para obtener dicho número. Los logaritmos permiten transformar las multiplicaciones en sumas y las divisiones en restas. Por tanto, simplifican mucho los cálculos numéricos. Trabajar con el logaritmo de una o más variables de un modelo resulta más sencillo que hacerlo con los valores originales, ya que permite construir modelos basados en funciones lineales en lugar de no lineales.

Low code

El low-code o bajo código es un enfoque de desarrollo de software que requiere poca o ninguna codificación para crear aplicaciones y procesos. En lugar de utilizar lenguajes de programación complejos, se pueden emplear interfaces visuales con lógica básica y capacidades de arrastrar y soltar en una plataforma de desarrollo low-code.

Oo

OCR

El OCR (Optical Character Recognition) es un software de reconocimiento de texto que saca de una imagen el texto que contiene y lo transforma en cadenas de caracteres para guardarlos en un formato que se pueda utilizar en programas de edición de texto.

ODM

ODM (Operational Decision Manager) es una de las herramienta más potentes de Decision Management del mercado. La solución de IBM permite analizar, automatizar y gobernar decisiones empresariales basadas en reglas.

On Premise

El término on-premise se refiere a la instalación de programas, sistemas o aplicaciones de manera local en las instalaciones de la empresa. Esto obliga a crear una infraestructura informática compleja con servidores que requieren mantenimiento.

Open data

Los datos abiertos u open data son aquellos datos libres. Cualquiera es libre de utilizarlos, reutilizarlos o redistribuirlos, sujetos como mucho a medidas que preserven la procedencia y la apertura.

Operations Research (OR)

La investigación operativa (IO) u Operations Reserach (OR) es un método analítico de resolución de problemas y toma de decisiones que resulta útil en la gestión de las organizaciones. En la investigación operativa, los problemas se descomponen en componentes básicos y luego se resuelven en pasos definidos mediante un análisis matemático.

Optimización matemática

La optimización matemática es el conjunto de algoritmos y modelos matemáticos que otorgan la capacidad de hacer o resolver alguna cosa de la manera más eficiente posible y, en el mejor de los casos, utilizando la menor cantidad de recursos.

Pp

Pandas

Es una de las librerías de tratamiento de datos de Python más populares entre los científicos de datos. Consiste en una API de análisis de datos orientada a columnas. Muchos entornos de Aprendizaje Automático, incluido TensorFlow, trabajan con estructuras de datos pandas.

Parámetros

Un parámetro, generalmente, es cualquier característica que pueda ayudar a definir o clasificar un sistema particular Es decir, es un elemento de un sistema que es útil o crítico al identificar el sistema o al evaluar su rendimiento, estado, condición, etc.

Patrón

En ciencia de datos llamamos patrón a una serie de variables que se mantienen constantes dentro de un conjunto mayor de datos.

Pentaho

Pentaho BI Suite es una herramienta de Business Intelligence que extrae y analiza datos con técnicas ETL (extraer, transformar y cargar, en sus siglas en inglés). Estos datos se muestran a posteriori en Cuadros de Mandos, que serán muy útiles para crear informes y tener un seguimiento de la consecución de objetivos.

Perceptrón

El perceptrón es un algoritmo de aprendizaje supervisado para clasificadores binarios. Es un clasificador lineal, es decir, un algoritmo de clasificación basado en una función linear que aplica una serie de funciones peso a los valores de entrada, y pasa los valores de esta suma ponderada a una función cuyo resultado de salida es “o”. El perceptrón es la red neuronal más sencilla, ya que simula el funcionamiento de una única neurona con n valores de entrada binarios. Calcula una suma ponderada de los valores de entrada y se dispara si esa suma es cero o mayor.

Perfilado

El perfilado es el proceso de usar datos personales para evaluar ciertos aspectos personales para analizar y predecir el comportamiento / rendimiento / fiabilidad, etc.

Perl

Es un antiguo lenguaje de scripting enraizado en sistemas anteriores a UNIX. Perl se ha usado mucho para tareas de procesamiento de texto y de limpieza y depuración de datos.

Phyton

Python es un lenguaje de programación que prioriza la legibilidad, lo que facilita su comprensión y uso. Su sintaxis tiene similitudes con la lengua inglesa, lo que facilita a los programadores novatos el salto al mundo del desarrollo.

PLN o NLP

El Natural Language Processing (NLP) o Procesamiento del Lenguaje Natural (PLN) en español es una disciplina que se enfoca principalmente en la comprensión, el manejo y la generación del lenguaje natural por parte de las máquinas.

PostgreSQL

PostgreSQL se utiliza como almacén de datos principal para muchas aplicaciones web, móviles, geoespaciales y de análisis. La última versión principal es PostgreSQL 12.

Potenciación del gradiente

Gradient boosting o Potenciación del gradiente, es una técnica de aprendizaje automático utilizado para el análisis de la regresión y para problemas de clasificación estadística, el cual produce un modelo predictivo en forma de un conjunto de modelos de predicción débil, normalmente, árboles de decisión. Construye el modelo de forma iterativa y lo generaliza permitiendo la optimización de una función pérdida diferenciable arbitraria.

Power BI

Power BI es una solución de análisis empresarial basado en la nube de Microsoft, que permite unir diferentes fuentes de datos, analizarlos y presentar un análisis de estos a través de informes y paneles.

Previsión de demanda

La previsión de la demanda consiste en calcular con la mayor exactitud posible el volumen de ventas de cada producto dentro de un periodo futuro de tiempo determinado, de esta forma, también podemos calcular las compras que debemos realizar sobre el producto para estar siempre aprovisionados de stock.

Pricing dinámico

Es una estrategia de fijación de precios ajustando la oferta y la demanda, de tal manera que el precio no es fijo, sino que fluctúa según las características del mercado.

Process Mining

El Process Mining o minería de procesos es una disciplina de análisis de procesos que busca descubrir, monitorizar y mejorar procesos a través de la extracción de conocimiento de registros de eventos.

Su objetivo es utilizar y transformar la gran cantidad de datos existentes disponibles en los sistemas de información corporativos en conocimiento en término de procesos de negocio. De esta manera se pueden identificar cuellos de botella, retrabajos, desviaciones y fuentes de desperdicio en los procesos, y descubrir oportunidades para optimizar el rendimiento y maximizar los resultados empresariales.

Programación lineal

La programación lineal (PL) es un método matemático de optimización, que permite representar modelos lineales para reducir costos o maximizar ganancias en diferentes áreas de una organización. Por lo que, es utilizada para la administración eficiente de los procesos en todos los ámbitos de la economía.

Programación por restricciones

La programación con restricciones es una técnica general para resolver problemas de restricciones. Como tal, dado cualquier problema modelado con restricciones, se ocupa primero de reducir el espacio de posibles soluciones y, luego, de ejecutar métodos específicos de búsqueda.

Tt

Tabla dinámica o pivotante

Las tablas dinámicas resumen de forma ágil y rápida largas listas de datos, sin necesidad de escribir fórmulas o copiar celdas. Pero su característica más importante es que se pueden reorganizar de forma dinámica. Con tan sólo mover el ratón, se puede reorganizar la tabla pivot de forma que resuma los datos agrupándolos, por ejempo, por género, por edad o por localización geográfica. El proceso de reorganizar la tabla se conoce como “pivotar los datos”. Consiste en distribuir la información de forma que se puede examinar desde distintos ángulos. El término tabla pivot es una frase genérica utilizada por múltiples proveedores. Sin embargo, Microsoft Corporation ha registrado la marca específica de «PivotTable».

Tensor

Los tensores son objetos matemáticos que almacenan valores numéricos y que pueden tener distintas dimensiones. Así, por ejemplo, un tensor de 1D es un vector, de 2D una matriz, de 3D un cubo, etc.

Tensor Flow

Es una librería de software opensource para el cálculo numérico que utiliza grafos de flujo de datos. Los nodos en el grafo representan operaciones matemáticas, mientras que los bordes representan los conjuntos de datos multidimensionales (tensores) comunicados entre ellos.

Transformación Digital

La transformación digital es el proceso de sustitución total de métodos manuales, tradicionales y heredadas de hacer negocios con las últimas alternativas digitales. Este tipo de reinvención toca todos los aspectos de un negocio, no solo la tecnología.

Transparencia (Gobierno del dato)

Concepto sobre el que se fundamenta la forma que los usuarios tienen para ser conscientes de la información almacenada por el servicio, dar y poder revocar su consentimiento explícito y poder tener acceso a revocarlo durante la operación del mismo y tener garantías de que se ha eliminado al terminar el mismo.

Tratamiento de datos

Consiste en convertir los datos, normalmente por medio de lenguajes de script, en un formato en el que resulte más fácil trabajar con ellos.

Trazabilidad

Conjunto de procedimientos preestablecidos y autosuficientes que permiten conocer el histórico y la trayectoria de un producto, decisión o tarea a lo largo de un proceso en un momento dado, a través de unas herramientas determinadas.

Se conoce la trazabilidad de una decisión de negocio cuando se saben todos los pasos por los que ha pasado y se entiende el resultado de la misma.

Vv

Validación cruzada

Se usa en la aplicación de algoritmos a conjuntos de datos. Consiste en un conjunto de técnicas que dividen los datos en datos de entrenamiento y datos de test. Los datos de entrenamiento se introducen en el algoritmo, junto con las respuestas correctas, y así “aprende” de los datos. Una vez entrenado, el algoritmo es capaz de predecir las respuestas correctas para cada uno de los datos de entrada del conjunto de datos de test. Las respuestas que da el algoritmo se comparan con los valores reales y así se puede estimar si el algoritmo lo hizo bien.

Valores anómalos

Son valores extremos que pueden ser debidos a errores de medición o registro de los datos, o bien reflejo de eventos reales, pero poco frecuentes.

Variable

En matemáticas y en lógica, una variable es un símbolo constituyente de un predicado, fórmula, algoritmo o de una proposición que expresa distintas cualidades, características o modalidades.

Variable categórica

Las variables categóricas (o variables nominales) son aquellas que tienen valores cualitativos discretos. Por ejemplo, los nombres de ciudades como Madrid, Valencia, Bilbao, son categóricos.

Variable continua

Se trata de variables cuyo valor puede ser cualquiera que se pueda expresar con un número decimal. La edad, o el tamaño, pueden ser variables continuas. Tiene 2,5 años. Su representación gráfica es una función continua. Las variables discretas, por el contrario, se expresan por números enteros, o valores concretos como por ejemplo “hombre”, “mujer”, “sí” o “no”.

Variable dependiente

Se llama variable dependiente porque su valor tiene que ver (“depende”) con el de la variable dependiente. Si estamos midiendo el efecto que tiene el volumen del presupuesto de publicidad sobre las ventas totales, el presupuesto de publicidad sería la variable independiente y las ventas totales, sería la dependiente.

Variable discreta

Se trata de una variable cuyos valores potenciales pertenecen a un conjunto específico de valores. Por ejemplo, si alguien califica una película entre una y cinco estrellas y no están permitidos valores fracción de estrella (por ejemplo, cuatro estrellas y media), la variable calificación es una variable discreta. En una representación gráfica, las variables discretas se expresan en forma de histogramas.

Vector

La definición matemática de un vector es “una cantidad que tiene una magnitud y una dirección, representada por una flecha cuya longitud representa la magnitud y cuya orientación en el espacio representa la dirección”. Sin embargo, los científicos de datos utilizan el término en este sentido: “conjunto ordenado de números reales que denotan una distancia sobre un eje de coordenadas. Estos números pueden representar características de una persona, película, producto o lo que queramos modelar. Esta representación matemática de las variables permite trabajar con librerías de software que aplican operaciones de matemáticas avanzadas a los datos.

Bb

Bayes (Clasificador Naive Bayes)

Se trata de un grupo de algoritmos de clasificación basados en el Teorema de Bayes. No es un único algoritmo, sino una familia de ellos que comparten el principio común de que cualquier variable que clasifiquemos es independiente del valor de las otras variables.

Por ejemplo, podemos considerar que una fruta es una manzana si es roja, redonda y de un tamaño determinado. Un clasificador Naive Bayes considera que cada una de estas características (roja, redonda, diámetro aproximado) contribuye de forma independiente a la probabilidad de que la fruta sea una manzana, independientemente de las correlaciones entre características. Sin embargo, las características no siempre son independientes, y por eso estos métodos se llaman “naive”.

Bayes (Estadística Bayesiana)

Es un procedimiento matemático que aplica probabilidad a problemas estadísticos. Proporciona herramientas que permiten actualizar las predicciones con la evidencia de datos nuevos. Se diferencia de la aproximación clásica, basada en la frecuencia, y en su lugar usa probabilidad bayesiana para resumir la evidencia.

Bayes (Teorema de Bayes)

También conocido como Regla de Bayes en honor al matemático y ministro presbiteriano del siglo XVIII Thomas Bayes. El teorema de Bayes se usa para calcular la probabilidad condicionada. La probabilidad condicionada consiste en la probabilidad de que ocurra el evento “B” cuando un evento relacionado “A” ha ocurrido (P(B|A)).

Big Data

Capacidad actual de trabajar con grandes volúmenes de datos que anteriormente eran inmanejables tanto por su tamaño, como por la velocidad de cómputo y la variedad de tipologías de datos y fuentes de datos.

Black Box

Un sistema de Black Box o de caja negra es aquel en el que conocemos las entradas de datos y las salidas o respuestas que produce, pero no su funcionamiento interno.

Blaze

Es una librería de Python que extiende las capacidades de Numpy y Pandas a datos distribuidos y en streaming. Se puede usar para acceder a datos de un gran número de fuentes como Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc.

Blockchain

Blockchain es un conjunto de tecnologías que permiten la transferencia de un valor o activo de un lugar a otro, sin intervención de terceros. En este modelo, la autenticidad no la verifica un tercero sino una red de nodos (computadores conectados a la red). Por ello, las transferencias de activos se realizan a través de un consenso y almacenando la información de manera transparente.

Bokeh

Es una librería de Python que permite generar atractivos gráficos interactivos en 3D, y aplicaciones web. Se usa para aplicaciones de rendimiento con datos en streaming.

Bosque aleatorio

El bosque aleatorio o random forest se trata de un algoritmo usado para tareas de regresión o clasificación que se basa en una combinación de árboles predictores. Para clasificar un nuevo objeto a partir de un vector de entrada, se alimenta cada uno de los árboles del bosque con ese vector. Cada árbol ofrece como resultado una clasificación, y decimos que “vota” por ese resultado. El bosque elige la clasificación que tiene más votos entre todos los árboles del bosque.

Bot

Un «bot», término proveniente de la palabra “robot”, es un programa software que realiza tareas repetitivas, predefinidas y automatizadas. Los bots están diseñados para imitar o sustituir una tarea o acción humana. Operan de forma automatizada, por lo que pueden trabajar mucho más rápido que una persona.

BPMS

Un BPMS o Business Process Management Suite es una aplicación específica para la orquestación de procesos end-to-end bajo el enfoque de gestión por procesos de negocio (BPM).

BSON

BSON es un formato de intercambio de datos usado principalmente para su almacenamiento y transferencia en la base de datos MongoDB. Es una representación binaria de estructuras de datos y mapas. El nombre BSON está basado en el término JSON y significa Binary JSON (JSON Binario).

Business Intelligence (BI)

El término Business Intelligence (BI) hace referencia al uso de estrategias y herramientas que sirven para transformar información en conocimiento, con el objetivo de mejorar el proceso de toma de decisiones en una empresa. Las herramientas de BI utilizan técnicas de analítica descriptiva y analítica diagnóstica para mostrar de una forma visual y fácil de entender qué ha pasado con un KPI en un periodo de tiempo determinado.

Business Process Management (BPM)

La Gestión por Procesos de Negocio o BPM es una disciplina de gestión empresarial holística que integra tanto otras disciplinas relacionadas, técnicas y mejores prácticas del pasado y presente; así como todas las tecnologías necesarias para dar vida a su implementación y ejecución.

Está enfocada en conseguir la mejora continua de la organización a través de procesos de negocios alineados con la estrategia definida. Tanto la estrategia como sus procesos son dinámicos, por lo tanto debe existir agilidad, preparación y atención para hacer frente a los cambios del entorno (clientes, competencia, normativas, etc.).

Business Rules Management System (BRMS)

Un BRMS o «Sistema de Gestión de Reglas de Negocio» es el sistema que permite centralizar y gestionar las reglas de negocio de una organización, es decir, las lógicas de negocio, así como modelar los objetos a los que se aplican.

Estos sistemas permiten realizar, implementar y probar cambios sobre la lógica de decisión en pocas horas frente a los largos períodos que precisan los sistemas informáticos tradicionales.

Dd

Dark data

Gartner define los datos oscuros como los activos de información que las organizaciones recogen, procesan y almacenan durante las actividades empresariales habituales, pero que generalmente no utilizan para otros fines (por ejemplo análisis, relaciones comerciales y monetización directa).

Dashboard

Un dashboard o cuadro de mandos es una herramienta de gestión de la información que monitoriza, analiza y muestra de manera visual los indicadores clave de desempeño (KPI), métricas y datos fundamentales para hacer un seguimiento del estado de una empresa, un departamento, una campaña o un proceso específico.

Data

Los datos o data son la unidad mínima de información y cuentan con una semántica definida.

Data center

Un data center es un centro de procesamiento de datos, una instalación empleada para albergar un sistema de información de componentes asociados, como telecomunicaciones y los sistemas de almacenamientos donde generalmente incluyen fuentes de alimentación redundante o de respaldo de un proyecto típico de data center.

Data driven

Cuando una empresa emplea un enfoque «orientado a los datos» o «data driven«, significa que toma decisiones estratégicas basadas en el análisis y la interpretación de los datos. Un enfoque basado en los datos permite a las empresas examinar y organizar sus datos con el objetivo de servir mejor a sus clientes y consumidores.

Data lake

Un data lake es un repositorio de almacenamiento que guarda una gran cantidad de datos en bruto en su formato nativo hasta que se necesitan para las aplicaciones de análisis. Mientras que un almacén de datos tradicional almacena los datos en dimensiones y tablas jerárquicas, un data lake utiliza una arquitectura plana para almacenar los datos, principalmente en archivos o almacenamiento de objetos.

Data mining

La minería de datos o data mining es el proceso de analizar un gran lote de información para discernir tendencias y patrones. Las empresas pueden utilizar la minería de datos para todo, desde el aprendizaje de lo que los clientes están interesados o quieren comprar hasta la detección de fraudes y el filtrado de spam.

Data Science

La ciencia de los datos o data science es un campo interdisciplinar que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento e insights de datos estructurados y no estructurados, y utilizarlos para general valor.

Dataset

Un dataset es como su nombre indica, un conjunto de datos. En el caso de los datos tabulares, un conjunto de datos corresponde a una o varias tablas de la base de datos, donde cada columna de una tabla representa una variable concreta, y cada fila corresponde a un registro determinado del conjunto de datos en cuestión.

Data warehouse

Un almacén de datos, o data warehouse, es un depósito central de información que puede analizarse para tomar decisiones más informadas. Los datos fluyen hacia un almacén de datos desde sistemas transaccionales, bases de datos relacionales y otras fuentes, normalmente con una cadencia regular.

Datos estructurados

Cuando hablamos de datos estructurados nos referimos a la información que se suele encontrar en la mayoría de bases de datos. Son archivos de tipo texto que se suelen mostrar en filas y columnas con títulos. Son datos que pueden ser ordenados y procesados fácilmente por todas las herramientas de minería de datos.

Datos semiestructurados

Los datos semiestructurados se refieren a cualquier información que utilice un esquema de autodescripción, como XML o JSON. Estos tipos de datos tienen un esquema abierto que permite la flexibilidad de datos de la aplicación.

Datos no estructurados

No estructurado significa simplemente que se trata de conjuntos de datos (colecciones grandes típicas de archivos) que no se almacenan en un formato de base de datos estructurados. Los datos no estructurados tienen estructura interna, pero no están predefinidos por modelos de datos.

Decision Management (DM)

La gestión de la decisión o Decision Management es el conjunto de técnicas y capacidades de negocio que permiten automatizar y gestionar las decisiones operacionales del día a día de una compañía.

Deep Learning

El Deep Learning o aprendizaje profundo, es una parte del aprendizaje automático (Machine Learning) que consiste esencialmente en una red neuronal con tres o más capas. Estas redes neuronales intentan simular el comportamiento del cerebro humano -aunque están lejos de igualar su capacidad- permitiéndole «aprender» de grandes cantidades de datos.

Desviación estándar

Es la raíz cuadrada de la varianza y se usa habitualmente para indicar cuánto se aleja de la media una medida determinada. Por ejemplo, si una observación se aleja de la media más de tres veces la desviación estándar, podemos decir en la mayoría de las aplicaciones que nos encontramos ante un caso anómalo. Los paquetes de software estadístico calculan de forma automática la desviación estándar.

DevOps

DevOps (acrónimo inglés de development -desarrollo- y operations -operaciones-) es un conjunto de prácticas que agrupan el desarrollo de software (Dev) y las operaciones de TI (Ops). Su objetivo es hacer más rápido el ciclo de vida del desarrollo de software y proporcionar una entrega continua de alta calidad.

Digital Decisioning

Digital Decisioning es la disciplina que se encarga de la toma de decisiones empresariales utilizando e integrando diferentes técnicas de Inteligencia Artificial. Utiliza la gestión de la decisión (Decision Management) para ofrecer valor de negocio a través de la IA, usando reglas de negocio para garantizar la agilidad, la transparencia y el cumplimiento, y buscando el aprendizaje y la mejora continua.

De esta manera, consigue decisiones precisas, consistentes y en tiempo real,

Digital Twins

Un Digital Twin o gemelo digital es una réplica digital de un producto, servicio o proceso. Al utilizar datos reales es capaz de recrear simulaciones que pueden predecir cómo funcionará el producto o proceso.

Esto permite que la versión digital imite y simule lo que está sucediendo con la versión original en tiempo real.

Digitalización

La digitalización es el proceso de transformar procesos analógicos y objetos físicos en digitales.

DMN

El Decision Model and Notation (DMN) es un estándar publicado por la Object Management Group (OMG), un consorcio que se dedica al cuidado y el establecimiento de diversos estándares de tecnologías orientadas a objetos. Dicho estándar es un enfoque para describir y modelar decisiones repetibles dentro de las organizaciones para garantizar que los modelos de decisión sean intercambiables entre organizaciones. El estándar DMN proporciona por tanto a la industria una notación de modelado para decisiones que respaldarán la gestión de decisiones y las reglas comerciales. La notación está diseñada para ser legible tanto por empresas como por usuarios de TI.

Document Processing

El Document Processing o procesamiento de documentos es una disciplina y un conjunto de procesos y tecnologías destinados a convertir un documento analógico en digital y poder extraer los datos de manera automática.

Kk

K-means clustering

Es un tipo de Algoritmo supervisado que se usa para tareas de clustering. Es un proceso que de forma sencilla clasifica un conjunto de datos en cierto número de clusters o agrupaciones (digamos “k” clusters). Los datos son homogéneos dentro de cada cluster y heterogéneos respecto a los datos de clusters vecinos.

K Nearest Neighbors

El algoritmo K Nearest Neighbor pertenece a la categoría de aprendizaje supervisado y se utiliza para la clasificación (más comúnmente) y la regresión. Es un algoritmo versátil que también se utiliza para imputar valores perdidos y remuestrear conjuntos de datos.

Keras

Keras es una biblioteca de redes neuronales artificiales de código abierto. Está diseñado para ir construyendo por bloques la arquitectura de cada red neuronal, incluyendo redes convolucionales y recurrentes, que son las que permiten, junto a los bloques “más tradicionales”, entrenar modelos deep learning.

Kogito

Kogito es una plataforma emergente y novedosa para construir flujos de procesos de trabajo nativos en la nube, integrados con un motor de reglas y un motor de optimización.

KPI

Un indicador clave de rendimiento o en inglés Key Performance Indicator (KPI) es nuna medida del nivel del rendimiento de un proceso. El valor del indicador está directamente relacionado con un objetivo fijado previamente y normalmente se expresa en valores porcentuales.

Mm

M2M

Machine to Machine (M2M) es la conexión o intercambio de información, en formato de datos que se crea entre dos máquinas conectadas. Es, en cierto modo, la conectividad en la que se basa Internet of Things (IoT). Actualmente el término M2M ha quedado obsoleto, ya que, se ha evolucionado hasta lo que denominamos IoT que, además de máquinas, también conecta a las personas.

Machine Learning

El Machine Learning (ML) o aprendizaje automático es un conjunto de técnicas capaces de programar algoritmos y modelos para realizar una determinada tarea usando grandes cantidades de datos. En estas técnicas los algoritmos aprenden por sí solos sin haber sido programados de forma explícita para ello. Son capaces de aprender patrones / comportamientos de los datos y generalizarlos para poder inferir / predecir comportamientos futuros.

Mahout

Es una librería de Java muy similar a NumPy en Python. Está enfocada a las expresiones matemáticas, algebraicas y estadísticas.

Mantenimiento predictivo

El mantenimiento predictivo es un tipo de mantenimiento de activos que aplica modelos predictivos para anticipar la ocurrencia de un fallo en un equipo basándose en los datos relativos a su estado. El mantenimiento predictivo también incluye actividades de mantenimiento regular, con la menor frecuencia posible, para evitar que se produzcan fallos.

Map Reduce

Map Reduce es un modelo de programación para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. Cumple dos funciones esenciales: filtra y reparte el trabajo entre varios nodos dentro del clúster o mapa, una función que a veces se denomina mapeador, y organiza y reduce los resultados de cada nodo en una respuesta cohesionada a una consulta, lo que se denomina reductor.

Máquina de vectores de soporte

Una máquina de vectores de soporte es un algoritmo de aprendizaje automático supervisado que se emplea tanto para tareas de clasificación como de regresión. Se basan en la idea de encontrar el hiperplano que mejor divida el conjunto de datos en dos clases diferenciadas. De forma intuitiva, cuando más lejos del hiperplano estén nuestros valores, más seguros estamos de que estén correctamente clasificados. Sin embargo, en ocasiones no es fácil entontrar el hiperplano que mejor clasifica los datos y es necesario saltar a una dimensión mayor (del plano a 3 dimensiones o incluso n dimensiones).

MATLAB

Se trata de un lenguaje y entorno de visualización y desarrollo de algoritmos comercial muy popular.

Matplotlib

Es una librería de Python que permite realizar todo tipo de gráficos: desde histogramas, hasta gráficos de líneas o mapas de calor. También permite el uso de comandos de Latex para agregar expresiones matemáticas a una gráfica.

Matriz de confusión

Es una tabla que se suele usar para describir el rendimiento de un modelo de clasificación. Consiste en una matriz N*N, donde N es el número de clases. La matriz se completa con los valores predichos por el modelo, versus los valores reales. El segundo cuadrante se llama error Tipo II o “falsos negativos”, mientras que el tercer cuadrante es error Tipo I o “falsos positivos”.

Matriz de correlación

La matriz de correlación muestra los valores de correlación de Pearson, que miden el grado de relación lineal entre dos variables. Los valores de correlación suelen estar entre -1 y +1. Sin embargo, en la práctica, los elementos por lo general tienen correlaciones positivas. Si los dos elementos tienden a aumentar o disminuir al mismo tiempo, el valor de correlación es positivo.

Mesa de datos

Espacio de participación multidisciplinar donde se trabaja sobre los datos con los medios técnicos disponibles bajo cualquier situación. Son un canal de responsabilidad social corporativo, solidario y ético donde de manera multidisciplinar se trabaja sobre los datos y las diferentes disciplinas de gobierno del dato. Pueden ser virtuales con workflows y automatismos o presenciales.

Metadato

Son datos sobre datos que permiten contextualizar la información. Describen características de los datos para ayudar a identificarlos, descubrirlos, valorarlos y administrarlos. Existen tres tipos de metadatos, técnicos, organizativos y de negocio.

Metaheurística

En ciencia de datos la metaheurística es el conjunto de métodos aproximados y algoritmos diseñados para resolver problemas de optimización combinatoria en los que los heurísticos clásicos no son efectivos.

Para resolver un tipo de problema computacional general, usa los parámetros dados por el usuario sobre unos procedimientos genéricos y abstractos de una manera que se espera eficiente.

Microservicios

Los microservicios o microservices son un enfoque arquitectónico y organizativo para el desarrollo de software donde el software está compuesto por pequeños servicios independientes que se comunican a través de API bien definidas. Los propietarios de estos servicios son equipos pequeños independientes.

Minería de datos

Minería de procesos

Mipack

Esta librería de C++ tiene la finalidad de ofrecer una rápida puesta en marcha de los algoritmos de machine Learning. Facilita la integración de los algoritmos en soluciones de mayor escala mediante línea de código.

Modelización matemática

La modelación matemática es un intento de describir alguna parte del mundo real en términos matemáticos. Modelos matemáticos han sido construidos en todas las ciencias tanto físicas, como biológicas y sociales. Los elementos que lo componen son tomados del cálculo, el álgebra, la geometría y otros campos afines.

En un modelo matemático se establece un conjunto de relaciones (de igualdad y/o de desigualdad) definidas en un conjunto de variables que reflejan la esencia de los fenómenos en el objeto de estudio.

Modelo de atribución

Un modelo de atribución es una regla o conjunto de reglas que determina cómo se asigna el valor de ventas y conversiones a los puntos de contacto de las rutas de conversión.

Modelo de regresión

Los algoritmos de regresión buscan optimizar una serie de parámetros o pesos que, aplicados sobre los datos, permiten ajustar una variable objetivo de la mejor forma posible. Para ello, en el proceso de entrenamiento se quiere reducir al máximo un error definido, como puede ser el error cuadrático medio.

Sin embargo, no es la única estrategia posible. Por ejemplo, en determinados problemas podemos querer reducir el número de pesos del modelo, lo que tiende a generalizar mejor, por lo que buscamos no solamente reducir el error de entrenamiento sino la norma de sus pesos. Dependiendo de cómo definamos esta penalización sobre los pesos, nos encontramos con algoritmos como Ridge, Lasso o Elastic Net.

Modelo estocástico

Un modelo estocástico es aquel cuyo comportamiento es no-determinista, en la medida que el subsiguiente estado del sistema está determinado tanto por las acciones predecibles del proceso como por elementos aleatorios.

Módulo (Python)

Los módulos son la forma que tiene Python de almacenar definiciones (instrucciones o variables) en un archivo, de forma que se puedan usar después en un script o en una instancia interactiva del intérprete. Así no es necesario volver a definirlas cada vez. La ventaja principal de que Python permita separar un programa en módulos es, evidentemente, que podremos reutilizarlos en otros programas o módulos.

Python viene con una colección de módulos estándar que se puede usar como base para un nuevo programa o como ejemplos para empezar a aprender.

Mongo DB

MongoDB es una base de datos de documentos utilizada para construir aplicaciones de Internet altamente disponibles y escalables. Con su enfoque de esquema flexible, es popular entre los equipos de desarrollo que utilizan metodologías ágiles.

Ss

SaaS

El software como servicio (SaaS) permite a los usuarios conectarse a aplicaciones basadas en la nube a través de Internet y usarlas. Ofrece una solución de software integral que se adquiere de un proveedor de servicios en la nube mediante un modelo de pago por uso.

Algunos ejemplos de SaaS son los servicios orientados a los consumidores, como Google Docs y Microsoft Office 365, y los empresariales que ofrecen software de recursos humanos, sistemas de gestión de contenido, herramientas de gestión de las relaciones con los clientes y entornos de desarrollo integrado (IDE).

Scikit Learn

Es una librería de Python construida sobre NumPy, SciPy y matplotlib. Esta librería contiene un gran número de eficientes herramientas para machine learning y modelado estadístico, como, por ejemplo, algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad.

SciPy

Acrónimo de Scientific Python. SciPy es una librería de Python que está construida sobre la librería para computación científica NumPy. Es una de las más útiles por la gran variedad que tiene de módulos de alto nivel sobre ciencia e ingeniería, como transformada discreta de Fourier, álgebra lineal, y matrices de optimización

Scrapy

Es una librería de Python que se usa para rastrear la web. Es un entorno muy útil para obtener determinados patrones de datos. Desde la url de la home de una web, puede rastrear las distintas páginas del sitio para recopilar información.

Scrum

Scrum es un marco que permite el trabajo colaborativo entre equipos. Aunque se considera a menudo un marco de gestión de proyectos ágil, scrum incluye un conjunto de reuniones, herramientas y funciones que, de forma coordinada, ayudan a los equipos a estructurar y gestionar su trabajo.

Seaborn

Es una librería de Python basada en matplotlib, se usa para hacer más atractivos los gráficos e información estadística en Python. Su objetivo es darle una mayor relevancia a las visualizaciones, dentro de las tareas de exploración e interpretación de los datos.

Segmentación

Es un método de aprendizaje no supervisado que se usa para descubrir agrupamientos inherentes a los datos. Por ejemplo, agrupamiento de clientes según sus hábitos de compra para de esta forma segmentarlos. De esta forma, las empresas pueden definir las estrategias de marketing más apropiadas para incrementar sus beneficios. Ejemplos de algoritmos de clustering son: K-Means, clustering jerárquico etc.

Sensibilidad y Especifidad

Son métricas estadísticas que se usan para medir el rendimiento de un clasificador binario. a Sensibilidad (También llamada tasa de verdadero positivo, o probabilidad de detección en algunos campos) mide la proporción de casos positivos correctamente identificados por el algoritmo clasificador. Por ejemplo, el porcentaje de personas que padecen una enfermedad y que son correctamente detectadas.

La Especificidad (también llamada tasa de verdaderos negativos) mide la proporción de casos negativos correctamente identificados como tales por el algoritmo clasificador. Por ejemplo, se usa para indicar el número de personas sanas que han sido correctamente identificadas como tales por el algoritmo.

Sensores IoT

Un sensor IoT es un dispositivo capaz de detectar, medir o indicar los cambios que se producen en un espacio/objeto físico, los transforma en una señal eléctrica y los cuelga de manera legible en una plataforma de conectividad. Estos sensores pueden medir multitud de variables (localización, temperatura, humedad, presión, velocidad…). Por si solos no serían útiles, por ello, todos los datos recogidos se cuelgan en una plataforma donde, a través del Big Data, podemos analizarlos y crear patrones de comportamiento para poder definir los valores y conseguir un valor añadido del dispositivo.

Sentiment Analysis

El análisis de sentimientos o Sentiment Analysis estudia la información subjetiva de una expresión, es decir, las opiniones, valoraciones, emociones o actitudes hacia un tema, persona o entidad. Las expresiones pueden clasificarse como positivas, negativas o neutras.

Serie espacio-temporal

Son series espacio-temporales aquellas series temporales de datos que también incluyen identificadores geográficos, como pares de coordenadas de latitud-longitud.

Serie temporal

Una serie temporal es una secuencia de medidas espaciadas en el tiempo intervalos no necesariamente iguales. Así las series temporales constan de una medida (por ejemplo, presión atmosférica o precio de una acción) acompañada de un sello temporal.

Sesgo

En machine learning se llama sesgo a la tendencia del que aprende a repetir el mismo error de forma consistente. La Varianza es la tendencia a aprender hechos aleatorios sin tener en cuenta la señal. En ocasiones, por evitar la varianza (overfitting) se cae en el error opuesto, el sesgo (underfitting).

Seudonimización

El proceso de seudonimización es una alternativa a la anonimización de datos. Mientras que la anonimización implica eliminar por completo toda la información identificable, la seudonimización pretende eliminar el vínculo entre un conjunto de datos y la identidad del individuo. Los ejemplos de seudonimización son encriptación y tokenización.

Shark

Esta librería de C++ ofrece métodos de optimización lineal y no lineal. Está basada en métodos kernel, redes neurales y otras técnicas avanzadas de machine learning. Es compatible con la mayoría de sistemas operativos.

Simulación

La simulación es una herramienta muy potente para la evaluación y el análisis de los sistemas nuevos y los ya existentes. Permite anticiparse al proceso real, validarlo y obtener su mejor configuración.

Sistema experto

Es un sistema que emplea conocimiento humano capturado en un ordenador para resolver problemas que normalmente resolverían humanos expertos. Los sistemas bien diseñados imitan el proceso de razonamiento que los expertos utilizan para resolver problemas específicos. Estos sistemas pueden funcionar mejor que cualquier humano experto tomando decisiones individualmente en determinados dominios y pueden ser utilizados por humanos no expertos para mejorar sus habilidades en la resolución de problemas.

Sobreajuste

Un modelo está “sobreajustado” cuando se han tenido en cuenta tantas peculiaridades y valores anónimos que el modelo se ha vuelto excesivamente complicado y no es aplicable a ningún conjunto de datos, salvo para el que se ha usado para entrenarlo.

Spark

Spark es un motor ultrarrápido para el almacenamiento, procesamiento y análisis de grandes volúmenes de datos. Es de código abierto y se encuentra gestionado por la Apache Software Foundation. Por tanto, la herramienta se conoce como Apache Spark y es uno de sus proyectos más activos.

Spark+MLlib

Es una librería de Java que encaja a la perfección con las APIs de Spark y trabaja conjuntamente con NumPy. Spark acelera el funcionamiento de MLlib, cuyo objetivo es realizar un aprendizaje escalable y más sencillo.

Speech Analytics

El speech analytics es el proceso de análisis de la señal de habla para obtener información relevante de la señal de forma más compacta que la propia señal de habla.

SQL

SQL se utiliza para comunicarse con una base de datos. Según el ANSI (American National Standards Institute), es el lenguaje estándar para los sistemas de gestión de bases de datos relacionales. Las sentencias SQL se utilizan para realizar tareas como la actualización de datos en una base de datos o la recuperación de datos de una base de datos.

Statsmodels

Es un módulo de Python para modelado estadístico. Permite a los usuarios explorar datos, hacer estimaciones de modelos estadísticos y realizar test estadísticos. Ofrece una extensa lista de estadísticas descriptivas, test, funciones gráficas etc para diferentes tipos de datos y estimadores.

Support Vector Machine

SVM o Support Vector Machine es un modelo lineal para problemas de clasificación y regresión. Puede resolver problemas lineales y no lineales y funciona bien para muchos problemas prácticos. La idea de la SVM es simple: El algoritmo crea una línea o un hiperplano que separa los datos en clases.

SymPy

Es una librería de Python que se usa para cálculo simbólico, desde aritmética, a cálculo, álgebra, matemáticas discretas y física cuántica. También permite formatear los resultados en código LaTeX.

Cc

C++

C++ es un lenguaje de programación diseñado en 1979 por Bjarne Stroustrup. La intención de su creación fue extender al lenguaje de programación C mecanismos que permiten la manipulación de objetos.

Caja negra

La caja negra es una metáfora para designar aquel elemento estructural de un modelo abstracto sobre el funcionamiento de un sistema que se halla entre la entrada (input) y la salida (output). Es decir, un algoritmo del que conocemos las entradas de datos y las salidas o respuestas que produce, pero no su funcionamiento interno.

Capa oculta

En las redes neuronales, una capa oculta es una capa sintética entre la capa de entrada (la capa de características) y la capa de salida (la capa de predicción). En una red neuronal puede haber una o más capas ocultas.

Chatbot

Un chatbot es un programa de inteligencia artificial (IA) que puede simular una conversación (o un chat) con un usuario en lenguaje natural a través de aplicaciones de mensajería, sitios web, aplicaciones móviles o por teléfono.

Chi cuadrado

Es un método estadístico que se usa para probar si una clasificación de datos puede ser debida al azar o a alguna ley subyacente (Wordpanda). El test chi-cuadrado es una técnica de análisis que se usa para estimar si dos variables están correlacionadas en una tabulación cruzada.

Ciberseguridad

La ciberseguridad es el conjunto de procedimientos y herramientas que se implementan para proteger la información que se genera y procesa a través de computadoras, servidores, dispositivos móviles, redes y sistemas electrónicos.

Ciudad Inteligente

Una Ciudad Inteligente o Smart City es un escenario en el que se utiliza la tecnología con el fin de mejorar las diferentes infraestructuras urbanas para los ciudadanos. Se trata de un espacio con millones de dispositivos y soluciones IoT conectadas cuyo principal desafío es cómo gestionar de manera útil y eficiente el enorme volumen de datos en tiempo real y de manera integrada.

CLN o NLU

La comprensión del lenguaje natural (CLN o NLU) es la parte del procesamiento del lenguaje natural que se encarga de interpretar un mensaje y entender su significado e intención, tal y como haría una persona. Para que el sistema funcione necesita datasets en el idioma específico, reglas de gramática, teoría semántica y pragmática (para entender el contexto e intencionalidad), etc.

Cloud

Podemos denominarlo como cloud computing, pero popularmente se le llama «cloud» al suministro de archivos o recursos a petición del usuario a través de una conexión a internet. Como casi cualquier conexión hay un solicitante (el usuario) y un receptor (el servidor), el solicitante pide un recurso a través de su aplicación y el receptor se lo proporciona.

Clustering

El clustering es una técnica que consiste en agrupar ítems en grupos con características similares. Se utiliza para determinar patrones climáticos, agrupar artículos por temas o para segmentar clientes.

Coeficiente

Se trata de un número o símbolo algebraico prefijado como multiplicador de una variable o cantidad desconocida. Al representar gráficamente una ecuación como y=3X+4, el coeficiente de “x”, en este caso, “3”, determina la pendiente de la recta. En estadística se suelen mencionar determinados coeficientes como el coeficiente de correlación, el coeficiente de Cramer, o el coeficiente de Gini.

Computación

La computación, también llamada informática, es el área de la ciencia que se encarga de estudiar la administración de métodos, técnicas y procesos con el fin de almacenar, procesar y transmitir información y datos en formato digital.

Computación en el borde

La computación en el borde o Edge Computing es un  nuevo paradigma de computación cuyo enfoque acerca el procesamiento y el almacenamiento de datos a los dispositivos que los generan, eliminando la dependencia de servidores en la nube (cloud) o en data centers ubicados a miles de kilómetros de distancia.

Consola

Cuando se accede al Sistema operativo desde la línea de comandos estamos usando la consola. Además de los lenguajes de script como Perl y Python, es habitual el uso de herramientas basadas en Linux como grep, diff, splitt, comm, head and tail para realizar tareas de preparación-depuración de datos desde la consola.

Contenedores de software

Los contenedores de software son ambientes de ejecución livianos que proveen a las aplicaciones con los archivos, variables y librerías que necesitan para operar. Se utilizan para garantizar que una aplicación se ejecute correctamente cuando cambie su entorno, con una reducción al mínimo de las fallas posibles y una maximización de su portabilidad.

Correlación

Consiste en la correspondencia relativa entre dos conjuntos de datos. Si las ventas suben al incrementarse el presupuesto de publicidad, significa que ambos hechos están correlacionados. El coeficiente de correlación mide hasta qué punto se correlacionan dos conjuntos de datos. Un coeficiente de valor “1” implica una correlación perfecta, 0,9 es una correlación fuerte y 0,2 una correlación débil. Este valor también puede ser negativo, como por ejemplo cuando se reduce la incidencia de una enfermedad al aumentar el índice de vacunación contra esta. Un coeficiente “-1” es una correlación negativa perfecta. Sin embargo, nunca hay que olvidar que correlación no implica causalidad.

Covarianza

Consiste en la relación entre dos variables cuyos valores se observan al mismo tiempo, en particular, el valor medio de las dos variables dividido por el producto de sus valores promedio. Al igual que la varianza mide la desviación de una variable respecto a su media, la covarianza mide la desviación conjunta de dos variables respecto a sus medias.

CRISP-DM

CRISP-DM o Cross Industry Standard Process for Data Mining es un modelo estándar abierto del proceso que describe los enfoques comunes que utilizan los expertos en minería de datos.

Es el modelo analítico más usado y permite crear modelos de minería de datos que se adapten a necesidades concretas.

Curtosis

La curtosis o kurtosis es una medida que sirve para analizar el grado de concentración que presentan los valores de una variable analizada alrededor de la zona central de la distribución de frecuencias. Una mayor curtosis implica una mayor concentración de datos muy cerca de la media de la distribución (pico) coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos muy alejados de la misma.

Ee

ECM

Un Software ECM (Enterprise Content Management) o Gestor de Contenidos Empresariales es una herramienta diseñada para organizar el contenido, automatizar los procesos y gestionar la información de un negocio de una forma rápida y eficaz. Los ECM son una evolución de los Gestores Documentales tradicionales.

Edge Computing

La computación en el borde o Edge Computing es una forma de computación que se realiza in situ o cerca de una fuente de datos concreta, lo que minimiza la necesidad de procesar los datos en un centro de datos remoto.

Escalar

Una variable es de tipo escalar (por oposición a vectorial), cuando tiene un valor de magnitud pero no dirección en el espacio, como por ejemplo, el volumen o la temperatura.

Estadística

La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para variables aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad (azar).

Estrato, muestreo estratificado

Consiste en dividir las muestras de población en grupos homegéneos o estratos y tomar una muestra aleatoria de cada uno de ellos.

ETL

ETL es un tipo de integración de datos que hace referencia a los tres pasos (extraer, transformar y cargar, o en inglés Extract, Transform and Load) que se utilizan para mezclar datos de múltiples fuentes. Se utiliza a menudo para construir un almacén de datos.

Eventos

Los eventos son sucesos o cambios significativos en el estado del hardware o el software de un sistema. Pueden originarse por estímulos internos o externos: con la actividad de un usuario, por ejemplo, cuando hace clic con el mouse o presiona una tecla; a partir de una fuente externa, como es el caso de un sensor; o provenir del sistema, cuando se carga un programa, por ejemplo.

La programación dirigida por eventos, es un paradigma de programación en el que tanto la estructura como la ejecución de los programas van determinados por los eventos.

Exactitud y sensibilidad

La exactitud (en inglés “Precision”) es una métrica para modelos de clasificación que responde a la siguiente pregunta: ¿De todos los resultados que el modelo da como positivos, cuántos son positivos de verdad? Representa lo cerca que está del valor verdadero el resultado del modelo o medición. También se conoce como Verdadero Positivo (o “True positive rate”).

La Sensibilidad indica cuántas de las predicciones positivas son correctas. La exactitud y la sensibilidad nos están indicando la relevancia de los resultados. Por ejemplo, un algoritmo muy exacto, (P alto) nos dará muchos más resultados relevantes que irrelevantes, mientras que un algoritmo muy específico, (TP alto), será el que detecte la mayoría de resultados de interés (los primeros).

Gg

Gemelos digitales

Un gemelo digital o Digital Twin es una réplica digital de un producto, servicio o proceso. Al utilizar datos reales es capaz de recrear simulaciones que pueden predecir cómo funcionará el producto o proceso.

Esto permite que la versión digital imite y simule lo que está sucediendo con la versión original en tiempo real.

Github

GitHub es una compañía no lucrativa que ofrece un servicio de hosting de repositorios almacenados en la nube. Se basa en la colaboración entre usuarios favoreciendo que los desarrolladores experimenten con código abierto y compartan sus distintos proyectos e ideas. Fue comprada por Microsoft en 2018.

GLN o NLG

La Generación de Lenguaje Natural (GLN) o en inglés Natural Language Generation (NLG) es dentro de la Lingüística Computacional, el campo que se encarga de la creación de textos utilizando Lenguaje Natural.

Gobierno del dato

Conjunto de políticas y buenas prácticas que habilitan procesos que tienen como objetivo promocionar los datos como activo dentro de una organización para mejorar la toma de decisiones.

Gradient boosting

Ii

IA Generativa

La IA generativa es un tipo de Inteligencia Artificial que tiene la capacidad de crear desde cero. Se basa en métodos de aprendizaje automático que recogen información sobre determinados elementos y, posteriormente, utilizan sus datos para generar ideas nuevas y realistas. La IA generativa se puede utilizar para crear nuevas formas de contenido creativo, pero también para la creación de código de software y para acelerar los ciclos de I+D de campos como el de la medicina o la creación de productos.

IBM

IBM es una de las compañías tecnológicas líderes a nivel mundial. Fabrica y comercializa hardware y software, y ofrece servicios de infraestructura, alojamiento y consultoría en una amplia gama de áreas relacionadas con la informática, desde computadoras centrales hasta nanotecnología. Su objetivo es proporcionar a las empresas soluciones para la mejora de sus procesos de negocio.

Imputación

Imputación es una técnica que se usa cuando hay valores que faltan en el conjunto de datos. Se realiza por medio de técnicas estadísticas, como sustituir por la mediana o la moda, o por técnicas de aprendizaje automático, como la imputación kNN.

Indicador de confianza

En minería de datos, el indicador de confianza (Lift) compara la frecuencia de un patrón observado con la frecuencia en que podríamos ver ese mismo patrón por casualidad. Si el valor de “Lift” es próximo a 1, es muy posible que el patrón que hemos observado sea mera casualidad. Cuanto mayor sea este valor, más posibilidades hay de que el patrón sea real.

Industria 4.0

También conocida como 4º Revolución Industrial busca la transformación de una empresa hacia una gestión inteligente para conseguir la optimización de sus recursos y el ahorro de costes. Como resultado de esta transformación digital, el negocio se vuelve más eficiente y consigue ser más competente.

Inferencia estadística

Una inferencia estadística (estadística deductiva) es cuando tratamos de sacar hipótesis sobre una población completa, analizando únicamente una muestra de ella. Por ejemplo, antes de sacar un medicamento al mercado, se hacen pruebas para ver su viabilidad. Pero es imposible hacer las pruebas sobre el conjunto de la población, así que se hacen sobre la muestra que la represente mejor.

Insights de datos (Data Insight)

Los Insights de datos o Data Insight se refiere al conocimiento o comprensión profunda de los datos de forma que pueda orientar acciones de negocio correctas y productivas. Las empresas “Data – driven” son aquellas que toman decisiones basadas en datos, en particular, en los Insights de datos (decisiones basadas en datos).

Integridad (Gobierno del dato)

Propiedad que debe cumplir la información contenida en un sistema de información por la cual dicha información no puede ser modificada sin dejar traza de que se ha producido dicha modificación, ya sea en los soportes físicos en los que se almacena o en el transporte de la misma a través de redes de comunicación.

Inteligencia Artificial

La Inteligencia Artificial (IA) es la combinación de tecnologías, modelos, técnicas y algoritmos planteados con el propósito de crear máquinas que presenten las mismas capacidades que el ser humano. Aunque es una ciencia que se transforma día a día, actualmente podemos diferenciar dos tipos principales de IA:

IA de interfaz. En este campo entrarían técnicas como el Procesamiento del Lenguaje Natural (NLP), el reconocimiento de imágenes, la transcripción o los sistemas de búsqueda.
IA para la toma de decisiones. En la que tendríamos la gestión de la decisión, la optimización matemática y la analítica predictiva.

Inteligencia Artificial de las cosas (AI of Things)

Este concepto se refiere a la unión de inteligencia artificial, tecnologías IoT y Big Data para que “las cosas (objetos inteligentes) sean capaces de aprender, compartir información entre ellas y tomar decisiones de manera casi desatendida” y así ayudar a las organizaciones a tomar decisiones que mejoren la vida de las personas.

Inteligencia cognitiva

La Inteligencia Cognitiva es una parte, si bien una parte importante de la Inteligencia Artificial, que abarca principalmente las tecnologías y herramientas que permiten a nuestras apps, websites y bots ver, oir, hablar, comprender e interpretar las necesidades del usuario por medio del lenguaje natural. Es decir, son las aplicaciones de la IA que permiten a las máquinas aprender el lenguaje de los usuarios para que éstos no tengan que aprender el lenguaje de las máquinas.

Inteligencia de negocio (BI)

El término inteligencia de negocio o Business Intelligence (BI) hace referencia al uso de estrategias y herramientas que sirven para transformar información en conocimiento, con el objetivo de mejorar el proceso de toma de decisiones en una empresa. Las herramientas de BI utilizan técnicas de analítica descriptiva y analítica diagnóstica para mostrar de una forma visual y fácil de entender qué ha pasado con un KPI en un periodo de tiempo determinado.

Internet del comportamiento (IoB)

El internet del comportamiento o en inglés Internet of Behavior (IoB) combina tecnologías enfocadas en rastrear la ubicación o el reconocimiento facial de las personas, interrelacionando los datos y mapeándolos con eventos para conocer al usuario. Esta tecnología combina funcionalidades existentes que se enfocan directamente en la persona que las utiliza.

Internet of Things (IoT)

El internet de las cosas o Internet of Things (IoT) describe la red de objetos físicos – «cosas»- que llevan incorporados sensores, software y otras tecnologías con el fin de conectarse e intercambiar datos con otros dispositivos y sistemas a través de Internet.

Interpretabilidad

La interpretabilidad es la capacidad de poder comprender dentro de un modelo o algoritmo las variables principales que afectan los resultados. En un algoritmo interpretable se pueden explicar las decisiones que este toma, y así poder dar explicaciones a los usuarios finales para una decisión o proceso en particular.

Indica el grado en el que las predicciones de un modelo pueden ser interpretables. Los modelos basados en Aprendizaje Profundo (Deep Learning) muchas veces no lo son, esto es, puede ser muy difícil descifrar lo que hace un modelo con distintas capas. Por el contrario, los modelos de regresión lineal sí resultan fácilmente interpretables.

Intervalo de confianza

Rango definido en torno a un valor estimado para indicar el margen de error, combinado con la probabilidad de que un valor caiga en ese rango. La Estadística ofrece fórmulas matemáticas específicas para calcular los intervalos de confianza.

Investigación operativa

La investigación operativa (IO) aplica el método científico para asignar los recursos o actividades de forma eficaz, en la gestión y organización de sistemas complejos. Su objetivo es ayudar a la toma de decisiones, y su enfoque es interdisciplinar.

Nn

Naive Bayes

Naive Bayes son algoritmos de clasificación de aprendizaje automático que se basan en la técnica de clasificación estadística del teorema de Bayes. En ellos se asume que las variables predictoras son independientes entre sí. En otras palabras, que la presencia de una cierta característica en un conjunto de datos no está en absoluto relacionada con la presencia de cualquier otra característica.

NLP o PLN

NLU o CLN

NoSQL

NoSQL se refiere a una base de datos no relacional o no SQL. Una base de datos relacional es un formato de bases de datos muy estructurado basado en una tabla, como MySQL u Oracle. Las bases de datos NoSQL están orientadas a los documentos y le permiten almacenar y recuperar datos en formatos que no sean tablas.

Nube (Cloud)

Llamamos nube o cloud al suministro de archivos o recursos a petición del usuario a través de una conexión a internet. Como casi cualquier conexión hay un solicitante (el usuario) y un receptor (el servidor), el solicitante pide un recurso a través de su aplicación y el receptor se lo proporciona.

Nube distribuida

La nube distribuida es una de las aplicaciones de las tecnologías de cloud, empleada para interconectar datos y aplicaciones que se sirven desde diversas ubicaciones geográficas.

Nube híbrida

La nube híbrida es una solución que combina una nube privada con uno o más servicios de nube pública, con software exclusivo que permite la comunicación entre cada servicio distintivo.

NumPy

Acrónimo de Numerical Python, es la principal librería de Python para computación científica. Una de sus características más potentes es que puede trabajar con matrices (array) de n dimensiones. También ofrece funciones básicas de algebra lineal, transformada de Fourier, capacidades avanzadas con números aleatorios, y herramientas de integración con otros lenguajes de bajo nivel como Fortran, C y C++.

Rr

R

R es un lenguaje de programación para la computación estadística y los gráficos apoyado por el R Core Team y la R Foundation for Statistical Computing. Creado por los estadísticos Ross Ihaka y Robert Gentleman, R se utiliza entre los mineros de datos y los estadísticos para el análisis de datos y el desarrollo de software estadístico.

Random Forest

Un random forest es una técnica de aprendizaje automático que se utiliza para resolver problemas de regresión y clasificación. Utiliza el aprendizaje por conjuntos, que es una técnica que combina muchos clasificadores para proporcionar soluciones a problemas complejos.

Real Time Data

Los datos en tiempo real o Real Time Data (RTD) son información que se entrega inmediatamente después de su recogida. No hay retraso en la actualidad de la información proporcionada. Los datos en tiempo real suelen utilizarse para la navegación o el seguimiento.

Realidad virtual

Es un sistema informático que genera simulaciones de espacios reales o ficticios donde podemos interactuar y explorar como si estuviéramos allí realmente.

Reconocimiento de imágenes

El reconocimiento de imágenes es en general un proceso complejo que requiere una serie de pasos que sucesivamente transforman los datos icónicos a información que la computadora puede reconocer.

Reconocimiento de texto

El reconocimiento de texto es una técnica analítica que consigue extraer y analizar la información que se encuentra en documentos de formato imagen, como por ejemplo JPG o PNG. Se puede aplicar a cualquier imagen que contenga texto, independientemente del idioma en el que esté el mismo.

Red neuronal

Una red neuronal es un modelo simplificado que emula el modo en que el cerebro humano procesa la información: Funciona simultaneando un número elevado de unidades de procesamiento interconectadas que parecen versiones abstractas de neuronas. Las unidades de procesamiento se organizan en capas.

Redes neuronales convolucionales

Son modelos de aprendizaje profundo que pueden aprender automáticamente representaciones jerárquicas de características. Esto significa que las características calculadas por la primera capa son generales y pueden reutilizarse en diferentes problemas, mientras que las características calculadas por la última capa son específicas y dependen del conjunto de datos y la tarea elegidos.

Reducción de dimensionalidad

Consiste en usar una técnica llamada análisis de componentes principales para extraer una o más dimensiones que capturan la mayor variación posible de los datos. Para ello se usa álgebra lineal, que, en pocas palabras, es la rama de las matemáticas que permite trasladar algo que ocurre en un espacio de m dimensiones, a otro espacio con un número de dimensiones menor.

Regla de negocio

Una regla de negocio es una condición que se debe satisfacer cuando se realiza una actividad de negocio. Una regla puede imponer una política de negocio, tomar una decisión o inferir nuevos datos de datos existentes.

Regresión

Es un método de aprendizaje supervisado donde la variable de salida es un valor real y continuo, como la “estatura” o el” peso”. La regresión consiste en ajustar cualquier conjunto de datos a un modelo determinado. Dentro de los algoritmos de regresión podemos encontrar la regresión lineal, no lineal, por mínimos cuadrados, Lasso, etc

Regresión lineal

Es una técnica que busca una relación lineal (relación entre dos cantidades variables que se puede expresar con una ecuación cuya representación gráfica es una recta) comenzando con un conjunto de puntos que, en un principio, no están bien alineados. Este proceso se realiza calculando la aproximación por mínimos cuadrados.

Es aquella que, en un gráfico de coordenadas cartesianas x-y, ofrece un mejor ajuste a los datos de acuerdo con un criterio de mínimos cuadrados (minimiza la suma de cuadrados de las diferencias en las ordenadas entre los puntos generados por la función elegida y los correspondientes valores en los datos).

Regresión logística

Es un modelo similar a la regresión lineal, pero los resultados que se obtienen son categóricos, en lugar de ser valores continuos.

RegTech

Las soluciones RegTech son aquellas que utilizan técnicas basadas en Inteligencia Artificial como el Machine Learning para ayudar a las entidades a resolver problemas normativos y de cumplimiento con rapidez y a escala.

Resiliencia (Gobierno del dato)

La resiliencia es la capacidad de los sistemas para mantener o restaurar su funcionalidad básica después de materializarse un riesgo o un evento (incluso desconocido).

Restricciones

Las restricciones lineales son los límites superior e inferior para una función de componentes en un diseño de mezclas.

Resumen automático

Es la técnica mediante la cual podemos sintetizar fragmentos largos de texto en fragmentos de textos más cortos que contengan únicamente aquella información que es relevante. Gracias a esto podemos diseñar y desarrollar modelos que nos ayuden a condensar y presentar la información ahorrándonos tiempo de lectura y maximizando la cantidad de información por palabra.

RGPD

El Reglamento General de Protección de Datos (GDPR en inglés) entró en vigor el 25 de mayo de 2018. Este nuevo reglamento tiene como objetivo principal gobernar la recopilación, el uso y el intercambio de datos personales. La cantidad de datos que creamos cada día está creciendo a un ritmo exponencial, y como dice la regulación, «el procesamiento de los datos personales debe estar diseñado para servir a la humanidad».

Robot

Un robot es un sistema electromecánico con independencia propia para crear unos movimientos o realicen operaciones que puedan ser, como mínimo, cuestión de estudio. Se crean a través de una técnica llamada robótica, que se utiliza para diseñarlos y construirlos.

ROI

El retorno sobre la inversión es un indicador que mide la relación entre la ganancia obtenida y la inversión realizada en una herramienta o tecnología. Se lo conoce como ROI por sus siglas en inglés (Return Of Investment).

RPA

La automatización robótica de procesos (RPA) es una tecnología de software fácil de usar para todo aquel que quiera automatizar tareas digitales. Con la RPA, los usuarios de software pueden crear robots de software o “bots” que pueden aprender, imitar y luego ejecutar procesos empresariales basados en reglas.

Ruby

Es un lenguaje de script que surgió en 1996. Es muy usando entre los científicos de datos, pero no es tan popular como Python, ya que éste que ofrece más librerías especializadas para las distintas tareas de Data Science.

Uu

UIMA

La “Arquitectura de Gestión de Información Desestructurada” fue desarrollada por IBM como entorno de análisis de datos no estructurados, especialmente, lenguaje natural. OASIS UIMA es una especificación que estandariza este entorno y Apache UIMA es una implementación de código abierto de ésta. Este entorno permite trabajar con distintas herramientas diseñadas para conectarse con él.

Unidad de procesamiento gráfico (GPU)

La unidad de procesamiento gráfico (GPU) es el componente hardware que se encarga de que el contenido se muestre correctamente en la pantalla o monitor del ordenador. Gestiona desde la interfaz de usuario hasta aplicaciones, páginas web o juegos.

Ww

Weka

Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos pueden aplicarse directamente a un conjunto de datos o llamarse desde su propio código Java. Weka contiene herramientas para el preprocesamiento de datos, la clasificación, la regresión, la agrupación, las reglas de asociación y la visualización.