Bayes (Clasificador Naive Bayes)
Se trata de un grupo de algoritmos de clasificación basados en el Teorema de Bayes. No es un único algoritmo, sino una familia de ellos que comparten el principio común de que cualquier variable que clasifiquemos es independiente del valor de las otras variables.
Por ejemplo, podemos considerar que una fruta es una manzana si es roja, redonda y de un tamaño determinado. Un clasificador Naive Bayes considera que cada una de estas características (roja, redonda, diámetro aproximado) contribuye de forma independiente a la probabilidad de que la fruta sea una manzana, independientemente de las correlaciones entre características. Sin embargo, las características no siempre son independientes, y por eso estos métodos se llaman “naive”.
Bayes (Estadística Bayesiana)
Es un procedimiento matemático que aplica probabilidad a problemas estadísticos. Proporciona herramientas que permiten actualizar las predicciones con la evidencia de datos nuevos. Se diferencia de la aproximación clásica, basada en la frecuencia, y en su lugar usa probabilidad bayesiana para resumir la evidencia.
Bayes (Teorema de Bayes)
También conocido como Regla de Bayes en honor al matemático y ministro presbiteriano del siglo XVIII Thomas Bayes. El teorema de Bayes se usa para calcular la probabilidad condicionada. La probabilidad condicionada consiste en la probabilidad de que ocurra el evento “B” cuando un evento relacionado “A” ha ocurrido (P(B|A)).
Big Data
Capacidad actual de trabajar con grandes volúmenes de datos que anteriormente eran inmanejables tanto por su tamaño, como por la velocidad de cómputo y la variedad de tipologías de datos y fuentes de datos.
Black Box
Un sistema de Black Box o de caja negra es aquel en el que conocemos las entradas de datos y las salidas o respuestas que produce, pero no su funcionamiento interno.
Blaze
Es una librería de Python que extiende las capacidades de Numpy y Pandas a datos distribuidos y en streaming. Se puede usar para acceder a datos de un gran número de fuentes como Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc.
Blockchain
Blockchain es un conjunto de tecnologías que permiten la transferencia de un valor o activo de un lugar a otro, sin intervención de terceros. En este modelo, la autenticidad no la verifica un tercero sino una red de nodos (computadores conectados a la red). Por ello, las transferencias de activos se realizan a través de un consenso y almacenando la información de manera transparente.
Bokeh
Es una librería de Python que permite generar atractivos gráficos interactivos en 3D, y aplicaciones web. Se usa para aplicaciones de rendimiento con datos en streaming.
Bosque aleatorio
El bosque aleatorio o random forest se trata de un algoritmo usado para tareas de regresión o clasificación que se basa en una combinación de árboles predictores. Para clasificar un nuevo objeto a partir de un vector de entrada, se alimenta cada uno de los árboles del bosque con ese vector. Cada árbol ofrece como resultado una clasificación, y decimos que “vota” por ese resultado. El bosque elige la clasificación que tiene más votos entre todos los árboles del bosque.
Bot
Un «bot», término proveniente de la palabra “robot”, es un programa software que realiza tareas repetitivas, predefinidas y automatizadas. Los bots están diseñados para imitar o sustituir una tarea o acción humana. Operan de forma automatizada, por lo que pueden trabajar mucho más rápido que una persona.
BPMS
Un BPMS o Business Process Management Suite es una aplicación específica para la orquestación de procesos end-to-end bajo el enfoque de gestión por procesos de negocio (BPM).
BSON
BSON es un formato de intercambio de datos usado principalmente para su almacenamiento y transferencia en la base de datos MongoDB. Es una representación binaria de estructuras de datos y mapas. El nombre BSON está basado en el término JSON y significa Binary JSON (JSON Binario).
Business Intelligence (BI)
El término Business Intelligence (BI) hace referencia al uso de estrategias y herramientas que sirven para transformar información en conocimiento, con el objetivo de mejorar el proceso de toma de decisiones en una empresa. Las herramientas de BI utilizan técnicas de analítica descriptiva y analítica diagnóstica para mostrar de una forma visual y fácil de entender qué ha pasado con un KPI en un periodo de tiempo determinado.
Business Process Management (BPM)
La Gestión por Procesos de Negocio o BPM es una disciplina de gestión empresarial holística que integra tanto otras disciplinas relacionadas, técnicas y mejores prácticas del pasado y presente; así como todas las tecnologías necesarias para dar vida a su implementación y ejecución.
Está enfocada en conseguir la mejora continua de la organización a través de procesos de negocios alineados con la estrategia definida. Tanto la estrategia como sus procesos son dinámicos, por lo tanto debe existir agilidad, preparación y atención para hacer frente a los cambios del entorno (clientes, competencia, normativas, etc.).
Business Rules Management System (BRMS)
Un BRMS o «Sistema de Gestión de Reglas de Negocio» es el sistema que permite centralizar y gestionar las reglas de negocio de una organización, es decir, las lógicas de negocio, así como modelar los objetos a los que se aplican.
Estos sistemas permiten realizar, implementar y probar cambios sobre la lógica de decisión en pocas horas frente a los largos períodos que precisan los sistemas informáticos tradicionales.
Dark data
Gartner define los datos oscuros como los activos de información que las organizaciones recogen, procesan y almacenan durante las actividades empresariales habituales, pero que generalmente no utilizan para otros fines (por ejemplo análisis, relaciones comerciales y monetización directa).
Dashboard
Un dashboard o cuadro de mandos es una herramienta de gestión de la información que monitoriza, analiza y muestra de manera visual los indicadores clave de desempeño (KPI), métricas y datos fundamentales para hacer un seguimiento del estado de una empresa, un departamento, una campaña o un proceso específico.
Data
Los datos o data son la unidad mínima de información y cuentan con una semántica definida.
Data center
Un data center es un centro de procesamiento de datos, una instalación empleada para albergar un sistema de información de componentes asociados, como telecomunicaciones y los sistemas de almacenamientos donde generalmente incluyen fuentes de alimentación redundante o de respaldo de un proyecto típico de data center.
Data driven
Cuando una empresa emplea un enfoque «orientado a los datos» o «data driven«, significa que toma decisiones estratégicas basadas en el análisis y la interpretación de los datos. Un enfoque basado en los datos permite a las empresas examinar y organizar sus datos con el objetivo de servir mejor a sus clientes y consumidores.
Data lake
Un data lake es un repositorio de almacenamiento que guarda una gran cantidad de datos en bruto en su formato nativo hasta que se necesitan para las aplicaciones de análisis. Mientras que un almacén de datos tradicional almacena los datos en dimensiones y tablas jerárquicas, un data lake utiliza una arquitectura plana para almacenar los datos, principalmente en archivos o almacenamiento de objetos.
Data mining
La minería de datos o data mining es el proceso de analizar un gran lote de información para discernir tendencias y patrones. Las empresas pueden utilizar la minería de datos para todo, desde el aprendizaje de lo que los clientes están interesados o quieren comprar hasta la detección de fraudes y el filtrado de spam.
Data Science
La ciencia de los datos o data science es un campo interdisciplinar que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento e insights de datos estructurados y no estructurados, y utilizarlos para general valor.
Dataset
Un dataset es como su nombre indica, un conjunto de datos. En el caso de los datos tabulares, un conjunto de datos corresponde a una o varias tablas de la base de datos, donde cada columna de una tabla representa una variable concreta, y cada fila corresponde a un registro determinado del conjunto de datos en cuestión.
Data warehouse
Un almacén de datos, o data warehouse, es un depósito central de información que puede analizarse para tomar decisiones más informadas. Los datos fluyen hacia un almacén de datos desde sistemas transaccionales, bases de datos relacionales y otras fuentes, normalmente con una cadencia regular.
Datos estructurados
Cuando hablamos de datos estructurados nos referimos a la información que se suele encontrar en la mayoría de bases de datos. Son archivos de tipo texto que se suelen mostrar en filas y columnas con títulos. Son datos que pueden ser ordenados y procesados fácilmente por todas las herramientas de minería de datos.
Datos semiestructurados
Los datos semiestructurados se refieren a cualquier información que utilice un esquema de autodescripción, como XML o JSON. Estos tipos de datos tienen un esquema abierto que permite la flexibilidad de datos de la aplicación.
Datos no estructurados
No estructurado significa simplemente que se trata de conjuntos de datos (colecciones grandes típicas de archivos) que no se almacenan en un formato de base de datos estructurados. Los datos no estructurados tienen estructura interna, pero no están predefinidos por modelos de datos.
Decision Management (DM)
La gestión de la decisión o Decision Management es el conjunto de técnicas y capacidades de negocio que permiten automatizar y gestionar las decisiones operacionales del día a día de una compañía.
Deep Learning
El Deep Learning o aprendizaje profundo, es una parte del aprendizaje automático (Machine Learning) que consiste esencialmente en una red neuronal con tres o más capas. Estas redes neuronales intentan simular el comportamiento del cerebro humano -aunque están lejos de igualar su capacidad- permitiéndole «aprender» de grandes cantidades de datos.
Desviación estándar
Es la raíz cuadrada de la varianza y se usa habitualmente para indicar cuánto se aleja de la media una medida determinada. Por ejemplo, si una observación se aleja de la media más de tres veces la desviación estándar, podemos decir en la mayoría de las aplicaciones que nos encontramos ante un caso anómalo. Los paquetes de software estadístico calculan de forma automática la desviación estándar.
DevOps
DevOps (acrónimo inglés de development -desarrollo- y operations -operaciones-) es un conjunto de prácticas que agrupan el desarrollo de software (Dev) y las operaciones de TI (Ops). Su objetivo es hacer más rápido el ciclo de vida del desarrollo de software y proporcionar una entrega continua de alta calidad.
Digital Decisioning
Digital Decisioning es la disciplina que se encarga de la toma de decisiones empresariales utilizando e integrando diferentes técnicas de Inteligencia Artificial. Utiliza la gestión de la decisión (
Decision Management) para ofrecer valor de negocio a través de la IA, usando reglas de negocio para garantizar la agilidad, la transparencia y el cumplimiento, y buscando el aprendizaje y la mejora continua.
De esta manera, consigue decisiones precisas, consistentes y en tiempo real,
Digital Twins
Un
Digital Twin o gemelo digital es una réplica digital de un producto, servicio o proceso. Al utilizar datos reales es capaz de recrear simulaciones que pueden predecir cómo funcionará el producto o proceso.
Esto permite que la versión digital imite y simule lo que está sucediendo con la versión original en tiempo real.
Digitalización
La digitalización es el proceso de transformar procesos analógicos y objetos físicos en digitales.
DMN
El Decision Model and Notation (DMN) es un estándar publicado por la Object Management Group (OMG), un consorcio que se dedica al cuidado y el establecimiento de diversos estándares de tecnologías orientadas a objetos. Dicho estándar es un enfoque para describir y modelar decisiones repetibles dentro de las organizaciones para garantizar que los modelos de decisión sean intercambiables entre organizaciones. El estándar DMN proporciona por tanto a la industria una notación de modelado para decisiones que respaldarán la gestión de decisiones y las reglas comerciales. La notación está diseñada para ser legible tanto por empresas como por usuarios de TI.
Document Processing
El Document Processing o procesamiento de documentos es una disciplina y un conjunto de procesos y tecnologías destinados a convertir un documento analógico en digital y poder extraer los datos de manera automática.
K-means clustering
Es un tipo de Algoritmo supervisado que se usa para tareas de clustering. Es un proceso que de forma sencilla clasifica un conjunto de datos en cierto número de clusters o agrupaciones (digamos “k” clusters). Los datos son homogéneos dentro de cada cluster y heterogéneos respecto a los datos de clusters vecinos.
K Nearest Neighbors
El algoritmo K Nearest Neighbor pertenece a la categoría de aprendizaje supervisado y se utiliza para la clasificación (más comúnmente) y la regresión. Es un algoritmo versátil que también se utiliza para imputar valores perdidos y remuestrear conjuntos de datos.
Keras
Keras es una biblioteca de redes neuronales artificiales de código abierto. Está diseñado para ir construyendo por bloques la arquitectura de cada red neuronal, incluyendo redes convolucionales y recurrentes, que son las que permiten, junto a los bloques “más tradicionales”, entrenar modelos deep learning.
Kogito
Kogito es una plataforma emergente y novedosa para construir flujos de procesos de trabajo nativos en la nube, integrados con un motor de reglas y un motor de optimización.
KPI
Un indicador clave de rendimiento o en inglés Key Performance Indicator (KPI) es nuna medida del nivel del rendimiento de un proceso. El valor del indicador está directamente relacionado con un objetivo fijado previamente y normalmente se expresa en valores porcentuales.
M2M
Machine to Machine (M2M) es la conexión o intercambio de información, en formato de datos que se crea entre dos máquinas conectadas. Es, en cierto modo, la conectividad en la que se basa Internet of Things (IoT). Actualmente el término M2M ha quedado obsoleto, ya que, se ha evolucionado hasta lo que denominamos IoT que, además de máquinas, también conecta a las personas.
Machine Learning
El Machine Learning (ML) o aprendizaje automático es un conjunto de técnicas capaces de programar algoritmos y modelos para realizar una determinada tarea usando grandes cantidades de datos. En estas técnicas los algoritmos aprenden por sí solos sin haber sido programados de forma explícita para ello. Son capaces de aprender patrones / comportamientos de los datos y generalizarlos para poder inferir / predecir comportamientos futuros.
Mahout
Es una librería de Java muy similar a NumPy en Python. Está enfocada a las expresiones matemáticas, algebraicas y estadísticas.
Mantenimiento predictivo
El mantenimiento predictivo es un tipo de mantenimiento de activos que aplica modelos predictivos para anticipar la ocurrencia de un fallo en un equipo basándose en los datos relativos a su estado. El mantenimiento predictivo también incluye actividades de mantenimiento regular, con la menor frecuencia posible, para evitar que se produzcan fallos.
Map Reduce
Map Reduce es un modelo de programación para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. Cumple dos funciones esenciales: filtra y reparte el trabajo entre varios nodos dentro del clúster o mapa, una función que a veces se denomina mapeador, y organiza y reduce los resultados de cada nodo en una respuesta cohesionada a una consulta, lo que se denomina reductor.
Máquina de vectores de soporte
Una máquina de vectores de soporte es un algoritmo de aprendizaje automático supervisado que se emplea tanto para tareas de clasificación como de regresión. Se basan en la idea de encontrar el hiperplano que mejor divida el conjunto de datos en dos clases diferenciadas. De forma intuitiva, cuando más lejos del hiperplano estén nuestros valores, más seguros estamos de que estén correctamente clasificados. Sin embargo, en ocasiones no es fácil entontrar el hiperplano que mejor clasifica los datos y es necesario saltar a una dimensión mayor (del plano a 3 dimensiones o incluso n dimensiones).
MATLAB
Se trata de un lenguaje y entorno de visualización y desarrollo de algoritmos comercial muy popular.
Matplotlib
Es una librería de Python que permite realizar todo tipo de gráficos: desde histogramas, hasta gráficos de líneas o mapas de calor. También permite el uso de comandos de Latex para agregar expresiones matemáticas a una gráfica.
Matriz de confusión
Es una tabla que se suele usar para describir el rendimiento de un modelo de clasificación. Consiste en una matriz N*N, donde N es el número de clases. La matriz se completa con los valores predichos por el modelo, versus los valores reales. El segundo cuadrante se llama error Tipo II o “falsos negativos”, mientras que el tercer cuadrante es error Tipo I o “falsos positivos”.
Matriz de correlación
La matriz de correlación muestra los valores de correlación de Pearson, que miden el grado de relación lineal entre dos variables. Los valores de correlación suelen estar entre -1 y +1. Sin embargo, en la práctica, los elementos por lo general tienen correlaciones positivas. Si los dos elementos tienden a aumentar o disminuir al mismo tiempo, el valor de correlación es positivo.
Mesa de datos
Espacio de participación multidisciplinar donde se trabaja sobre los datos con los medios técnicos disponibles bajo cualquier situación. Son un canal de responsabilidad social corporativo, solidario y ético donde de manera multidisciplinar se trabaja sobre los datos y las diferentes disciplinas de gobierno del dato. Pueden ser virtuales con workflows y automatismos o presenciales.
Metadato
Son datos sobre datos que permiten contextualizar la información. Describen características de los datos para ayudar a identificarlos, descubrirlos, valorarlos y administrarlos. Existen tres tipos de metadatos, técnicos, organizativos y de negocio.
Metaheurística
En ciencia de datos la metaheurística es el conjunto de métodos aproximados y algoritmos diseñados para resolver problemas de optimización combinatoria en los que los heurísticos clásicos no son efectivos.
Para resolver un tipo de problema computacional general, usa los parámetros dados por el usuario sobre unos procedimientos genéricos y abstractos de una manera que se espera eficiente.
Microservicios
Los
microservicios o
microservices son un enfoque arquitectónico y organizativo para el desarrollo de software donde el software está compuesto por pequeños servicios independientes que se comunican a través de API bien definidas. Los propietarios de estos servicios son equipos pequeños independientes.
Minería de datos
La minería de datos o data mining es el proceso de analizar un gran lote de información para discernir tendencias y patrones. Las empresas pueden utilizar la minería de datos para todo, desde el aprendizaje de lo que los clientes están interesados o quieren comprar hasta la detección de fraudes y el filtrado de spam.
Minería de procesos
El
Process Mining o minería de procesos es una disciplina de análisis de procesos que busca descubrir, monitorizar y mejorar procesos a través de la extracción de conocimiento de registros de eventos.
Su objetivo es utilizar y transformar la gran cantidad de datos existentes disponibles en los sistemas de información corporativos en conocimiento en término de procesos de negocio. De esta manera se pueden identificar cuellos de botella, retrabajos, desviaciones y fuentes de desperdicio en los procesos, y descubrir oportunidades para optimizar el rendimiento y maximizar los resultados empresariales.
Mipack
Esta librería de C++ tiene la finalidad de ofrecer una rápida puesta en marcha de los algoritmos de machine Learning. Facilita la integración de los algoritmos en soluciones de mayor escala mediante línea de código.
Modelización matemática
La modelación matemática es un intento de describir alguna parte del mundo real en términos matemáticos. Modelos matemáticos han sido construidos en todas las ciencias tanto físicas, como biológicas y sociales. Los elementos que lo componen son tomados del cálculo, el álgebra, la geometría y otros campos afines.
En un modelo matemático se establece un conjunto de relaciones (de igualdad y/o de desigualdad) definidas en un conjunto de variables que reflejan la esencia de los fenómenos en el objeto de estudio.
Modelo de atribución
Un modelo de atribución es una regla o conjunto de reglas que determina cómo se asigna el valor de ventas y conversiones a los puntos de contacto de las rutas de conversión.
Modelo de regresión
Los algoritmos de regresión buscan optimizar una serie de parámetros o pesos que, aplicados sobre los datos, permiten ajustar una variable objetivo de la mejor forma posible. Para ello, en el proceso de entrenamiento se quiere reducir al máximo un error definido, como puede ser el error cuadrático medio.
Sin embargo, no es la única estrategia posible. Por ejemplo, en determinados problemas podemos querer reducir el número de pesos del modelo, lo que tiende a generalizar mejor, por lo que buscamos no solamente reducir el error de entrenamiento sino la norma de sus pesos. Dependiendo de cómo definamos esta penalización sobre los pesos, nos encontramos con algoritmos como Ridge, Lasso o Elastic Net.
Modelo estocástico
Un modelo estocástico es aquel cuyo comportamiento es no-determinista, en la medida que el subsiguiente estado del sistema está determinado tanto por las acciones predecibles del proceso como por elementos aleatorios.
Módulo (Python)
Los módulos son la forma que tiene Python de almacenar definiciones (instrucciones o variables) en un archivo, de forma que se puedan usar después en un script o en una instancia interactiva del intérprete. Así no es necesario volver a definirlas cada vez. La ventaja principal de que Python permita separar un programa en módulos es, evidentemente, que podremos reutilizarlos en otros programas o módulos.
Python viene con una colección de módulos estándar que se puede usar como base para un nuevo programa o como ejemplos para empezar a aprender.
Mongo DB
MongoDB es una base de datos de documentos utilizada para construir aplicaciones de Internet altamente disponibles y escalables. Con su enfoque de esquema flexible, es popular entre los equipos de desarrollo que utilizan metodologías ágiles.
SaaS
El software como servicio (SaaS) permite a los usuarios conectarse a aplicaciones basadas en la nube a través de Internet y usarlas. Ofrece una solución de software integral que se adquiere de un proveedor de servicios en la nube mediante un modelo de pago por uso.
Algunos ejemplos de SaaS son los servicios orientados a los consumidores, como Google Docs y Microsoft Office 365, y los empresariales que ofrecen software de recursos humanos, sistemas de gestión de contenido, herramientas de gestión de las relaciones con los clientes y entornos de desarrollo integrado (IDE).
Scikit Learn
Es una librería de Python construida sobre NumPy, SciPy y matplotlib. Esta librería contiene un gran número de eficientes herramientas para machine learning y modelado estadístico, como, por ejemplo, algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad.
SciPy
Acrónimo de Scientific Python. SciPy es una librería de Python que está construida sobre la librería para computación científica NumPy. Es una de las más útiles por la gran variedad que tiene de módulos de alto nivel sobre ciencia e ingeniería, como transformada discreta de Fourier, álgebra lineal, y matrices de optimización
Scrapy
Es una librería de Python que se usa para rastrear la web. Es un entorno muy útil para obtener determinados patrones de datos. Desde la url de la home de una web, puede rastrear las distintas páginas del sitio para recopilar información.
Scrum
Scrum es un marco que permite el trabajo colaborativo entre equipos. Aunque se considera a menudo un marco de gestión de proyectos ágil, scrum incluye un conjunto de reuniones, herramientas y funciones que, de forma coordinada, ayudan a los equipos a estructurar y gestionar su trabajo.
Seaborn
Es una librería de Python basada en matplotlib, se usa para hacer más atractivos los gráficos e información estadística en Python. Su objetivo es darle una mayor relevancia a las visualizaciones, dentro de las tareas de exploración e interpretación de los datos.
Segmentación
Es un método de aprendizaje no supervisado que se usa para descubrir agrupamientos inherentes a los datos. Por ejemplo, agrupamiento de clientes según sus hábitos de compra para de esta forma segmentarlos. De esta forma, las empresas pueden definir las estrategias de marketing más apropiadas para incrementar sus beneficios. Ejemplos de algoritmos de clustering son: K-Means, clustering jerárquico etc.
Sensibilidad y Especifidad
Son métricas estadísticas que se usan para medir el rendimiento de un clasificador binario. a Sensibilidad (También llamada tasa de verdadero positivo, o probabilidad de detección en algunos campos) mide la proporción de casos positivos correctamente identificados por el algoritmo clasificador. Por ejemplo, el porcentaje de personas que padecen una enfermedad y que son correctamente detectadas.
La Especificidad (también llamada tasa de verdaderos negativos) mide la proporción de casos negativos correctamente identificados como tales por el algoritmo clasificador. Por ejemplo, se usa para indicar el número de personas sanas que han sido correctamente identificadas como tales por el algoritmo.
Sensores IoT
Un sensor IoT es un dispositivo capaz de detectar, medir o indicar los cambios que se producen en un espacio/objeto físico, los transforma en una señal eléctrica y los cuelga de manera legible en una plataforma de conectividad. Estos sensores pueden medir multitud de variables (localización, temperatura, humedad, presión, velocidad…). Por si solos no serían útiles, por ello, todos los datos recogidos se cuelgan en una plataforma donde, a través del Big Data, podemos analizarlos y crear patrones de comportamiento para poder definir los valores y conseguir un valor añadido del dispositivo.
Sentiment Analysis
El análisis de sentimientos o Sentiment Analysis estudia la información subjetiva de una expresión, es decir, las opiniones, valoraciones, emociones o actitudes hacia un tema, persona o entidad. Las expresiones pueden clasificarse como positivas, negativas o neutras.
Serie espacio-temporal
Son series espacio-temporales aquellas series temporales de datos que también incluyen identificadores geográficos, como pares de coordenadas de latitud-longitud.
Serie temporal
Una serie temporal es una secuencia de medidas espaciadas en el tiempo intervalos no necesariamente iguales. Así las series temporales constan de una medida (por ejemplo, presión atmosférica o precio de una acción) acompañada de un sello temporal.
Sesgo
En machine learning se llama sesgo a la tendencia del que aprende a repetir el mismo error de forma consistente. La Varianza es la tendencia a aprender hechos aleatorios sin tener en cuenta la señal. En ocasiones, por evitar la varianza (overfitting) se cae en el error opuesto, el sesgo (underfitting).
Seudonimización
El proceso de seudonimización es una alternativa a la anonimización de datos. Mientras que la anonimización implica eliminar por completo toda la información identificable, la seudonimización pretende eliminar el vínculo entre un conjunto de datos y la identidad del individuo. Los ejemplos de seudonimización son encriptación y tokenización.
Shark
Esta librería de C++ ofrece métodos de optimización lineal y no lineal. Está basada en métodos kernel, redes neurales y otras técnicas avanzadas de machine learning. Es compatible con la mayoría de sistemas operativos.
Simulación
La simulación es una herramienta muy potente para la evaluación y el análisis de los sistemas nuevos y los ya existentes. Permite anticiparse al proceso real, validarlo y obtener su mejor configuración.
Sistema experto
Es un sistema que emplea conocimiento humano capturado en un ordenador para resolver problemas que normalmente resolverían humanos expertos. Los sistemas bien diseñados imitan el proceso de razonamiento que los expertos utilizan para resolver problemas específicos. Estos sistemas pueden funcionar mejor que cualquier humano experto tomando decisiones individualmente en determinados dominios y pueden ser utilizados por humanos no expertos para mejorar sus habilidades en la resolución de problemas.
Sobreajuste
Un modelo está “sobreajustado” cuando se han tenido en cuenta tantas peculiaridades y valores anónimos que el modelo se ha vuelto excesivamente complicado y no es aplicable a ningún conjunto de datos, salvo para el que se ha usado para entrenarlo.
Spark
Spark es un motor ultrarrápido para el almacenamiento, procesamiento y análisis de grandes volúmenes de datos. Es de código abierto y se encuentra gestionado por la Apache Software Foundation. Por tanto, la herramienta se conoce como Apache Spark y es uno de sus proyectos más activos.
Spark+MLlib
Es una librería de Java que encaja a la perfección con las APIs de Spark y trabaja conjuntamente con NumPy. Spark acelera el funcionamiento de MLlib, cuyo objetivo es realizar un aprendizaje escalable y más sencillo.
Speech Analytics
El speech analytics es el proceso de análisis de la señal de habla para obtener información relevante de la señal de forma más compacta que la propia señal de habla.
SQL
SQL se utiliza para comunicarse con una base de datos. Según el ANSI (American National Standards Institute), es el lenguaje estándar para los sistemas de gestión de bases de datos relacionales. Las sentencias SQL se utilizan para realizar tareas como la actualización de datos en una base de datos o la recuperación de datos de una base de datos.
Statsmodels
Es un módulo de Python para modelado estadístico. Permite a los usuarios explorar datos, hacer estimaciones de modelos estadísticos y realizar test estadísticos. Ofrece una extensa lista de estadísticas descriptivas, test, funciones gráficas etc para diferentes tipos de datos y estimadores.
Support Vector Machine
SVM o Support Vector Machine es un modelo lineal para problemas de clasificación y regresión. Puede resolver problemas lineales y no lineales y funciona bien para muchos problemas prácticos. La idea de la SVM es simple: El algoritmo crea una línea o un hiperplano que separa los datos en clases.
SymPy
Es una librería de Python que se usa para cálculo simbólico, desde aritmética, a cálculo, álgebra, matemáticas discretas y física cuántica. También permite formatear los resultados en código LaTeX.