Objetivo #3 Big data


Definición de big data 18:

Big Data es un término amplio para conjuntos de datos tan grandes o complejos que las aplicaciones tradicionales de procesamiento de datos no son suficientes. Engloba el análisis, la captura, la autentificación de datos, búsqueda, intercambio, almacenamiento, transferencia, visualización, consulta y privacidad de la información. El término a menudo se refiere simplemente a la utilización de análisis predictivo u otros determinados métodos avanzados para extraer valor de los datos, y rara vez para definir a un determinado tamaño de conjunto de datos. La exactitud en el Big Data puede conducir a la toma de decisiones con más confianza.


Arquitectura de la big data18:

La arquitectura del Big Data se refiere al conjunto de tecnologías, procesos y recursos que se utilizan para la gestión, almacenaje y análisis de volúmenes de datos muy grandes. Estos no pueden gestionarse por la vía tradicional con herramientas de Big Data o software común, puesto que los datos provienen, además, de diversas fuentes y se encuentran en múltiples formatos. Para poder realizar dichas tareas, se sirve de componentes como el almacenamiento distribuido, el procesamiento paralelo o las herramientas de análisis avanzado.

Si nos vamos a los procesos de estos procesos, podemos hablar de cinco puntos básicos, que son fundamentales para entender la definición de este concepto y todo lo que implica. Son los siguientes:

  •     Identificación de los orígenes de los datos.
  •     Obtención de los datos.
  •     Almacenamiento de los datos.
  •     Tratamiento de los datos.
  •     Utilización de la información resultante de todos esos datos.
En cuanto a las características de la arquitectura del Big Data, las más relevantes son las que te dejamos a continuación:

    Tolerancia a fallos. El diseño de la infraestructura permite que el sistema siempre se mantenga en funcionamiento, incluso cuando se producen algunos fallos o errores. Si bien algunos procesos o áreas se pueden ver afectados temporalmente, no repercute en la totalidad del sistema.

    Escalabilidad. Implica que, a medida que se incrementa el volumen de datos, se puedan aumentar también con facilidad las capacidades de procesamiento y de almacenamiento de datos.

    Procesamiento distribuido. El tratamiento de los datos se realiza entre diferentes máquinas, con el objetivo de mejorar los tiempos de ejecución y así dotar al sistema de la escalabilidad mencionada.

    Datos distribuidos. Además de en el procesamiento, también se aplica a los datos.

    Localidad del dato. Los datos que se van a trabajar y los procesos que los analizan deben estar cerca. De esta manera, se evitan posibles transmisiones por red que hagan que surjan latencias que repercutirán en los tiempos de ejecución.
Las cuatro componentes elementales del Big Data

  Volumen. Como es lógico, cuando hablamos de volumen en Big Data nos estamos refiriendo a la cantidad de datos con la que se trabaja. El volumen y la capacidad de almacenamiento de información se mide en diferentes formatos. Varían su nomenclatura a medida que aumenta el volumen y conjunto de datos trabajados. De los bytes a los megabytes y zettabytes. 

   Velocidad. Con la velocidad se mide la rapidez con la que se crean, generan, transportan y analizan los datos en los diferentes procesos ETL.

   Variedad. Cuantos más tipos de datos se abarquen durante los procesos ETL, mejores análisis se podrán realizar.

   Valor. La implementación de herramientas de Big Data aporta valor y prestigio a la empresa, al posicionarla como un entorno estructurado y organizado que cuida el tratamiento de información acorde a los nuevos tiempos, protocolos y tecnologías.


ingreso de datos:

La información disponible a nivel mundial han crecido de manera exponencial en los últimos tiempos. Pero… ¿de dónde vienen esos datos? Hay múltiples fuentes. Destacaremos las siguientes:

· Producidos por personas. Mandar un email, escribir un comentario en Facebook, contestar a una encuesta telefónica, meter información en una hoja de cálculo, responder a un WhatsApp, coger los datos de contacto de un cliente, hacer clic en un enlace de Internet… Infinidad de acciones que realizamos en el día a día suponen una fuente de datos inmensa.

 · Entre máquinas. Sí, entre máquinas también se comparten datos directamente, en lo que se conoce igualmente como M2M, que viene del inglés «machine to machine». Así, los termómetros, parquímetros y sistemas de riego automático de las ciudades, los GPS de vehículos y teléfonos móviles, las máquinas expendedoras de bebidas y alimentos en un hospital, o los contadores de electricidad de las viviendas, por poner unos pocos ejemplos, se comunican a través de dispositivos con otros aparatos, a los que transmiten los datos que van recogiendo. Las redes de comunicación para llevar a cabo estas acciones son muy variadas. Entre las más conocidas están el Wifi, el ADSL, la fibra óptica y el Bluetooth.

· Biométricas. Los datos que tienen como origen artefactos como sensores de huellas dactilares, escáneres de retina, lectores de ADN, sensores de reconocimiento facial o reconocimiento de voz. Su uso es muy extendido en materia de seguridad en todas sus variantes (privada, corporativa, militar, policíaca, de servicios de inteligencia, etcétera).
procedencia datos

· Marketing web. Nuestros movimientos en la Red están sujetos a todo tipo de mediciones que tienen como objeto estudios de marketing y análisis de comportamiento. Por ejemplo, cuando se realizan mapas de calor basados en el rastreo del movimiento del cursor por parte de los usuarios de una web, en la detección de la posición de la página, o en el seguimiento de desplazamiento vertical a lo largo de esta. Con esos datos se llega a conclusiones tales como qué partes de una página atraen más al usuario, dónde hace clic o en qué zona de esta pasa más tiempo.

· Transacciones de datos. El traspaso de dinero de una cuenta bancaria a otra, la reserva de un billete de avión o añadir un artículo a un carrito de compra virtual de un portal de comercio electrónico, serían algunos ejemplos.

Gestión de datos:

Si un modelo de análisis es el producto hecho a partir de los datos de una empresa, entonces la gestión de datos es la fábrica, los materiales, la cadena de suministro, todo lo que se necesita para fabricar el producto.


La gestión de datos es un sistema de información del ciclo de vida total que sigue los datos desde el momento en que se crean hasta que dejan de ser útiles. La gestión de datos realiza un seguimiento de los datos de un lugar a otro, supervisa la transición de los datos de un formato a otro y garantiza que nada importante quede fuera de un modelo de análisis empresarial.



Tiempo real de procesamiento:

Actualmente, la tendencia del ser humano es que cuando quiere algo lo quiere en ese mismo instante, lo cual ha conllevado que el nivel de exigencia sea cada vez más elevado para las empresas.

Esta exigencia, es un aspecto importante no sólo para los servicios que ofrecen las empresas, sino también va a impactar mucho en los análisis de los datos que se hagan en tiempo real.

Respecto a este análisis en tiempo real, que es lo que Big Data ofrece, existen básicamente dos técnicas a tener en cuenta:

Data Stream La velocidad es su máxima preocupación y lo que permite es realizar un análisis mientras los datos están en movimiento, antes de que lleguen a su destino final, momento en el que ya se guarda toda la información obtenida.

CEP Son las siglas pertenecientes a “Complex Event Processing”. Se trata también de un análisis en tiempo real pero centrándose en los eventos que puedan suceder en un determinado proceso, es decir, su objetivo es buscar eventos pre-definidos, analizando los datos en tiempo real. 

Análisis de datos:
El análisis de big data es el proceso de analizar fuentes de datos grandes y complejas para descubrir tendencias, patrones, comportamientos de los clientes y preferencias del mercado para tomar mejores decisiones comerciales.  


Básicamente, se pueden realizar 4 tipos de análisis aplicando el Big Data. A continuación, vamos a describir en qué consiste cada uno de ellos.

Análisis predictivo.

También conocido como Ciencia de datos o Data Science, el análisis predictivo hace un pronóstico sobre posibilidades futuras, basándose en patrones encontrados en los datos de la empresa que fueron analizados.

El Big Data, por tanto, es una herramienta que permite anticiparse al comportamiento del mercado. Esto permite a las empresas, por ejemplo:

Detectar tendencias para realizar una estimación fiable de la futura demanda de los usuarios. Por ejemplo, los servicios de streaming y multimedia analizan nuestros hábitos de lectura, visualización y escucha para construir experiencias individualizadas y lanzar recomendaciones. Netflix recoge los gustos e intereses de sus usuarios para prever cómo serán recibidas sus próximas series y tomar decisiones sobre sus futuros proyectos.
Optimizar los procesos de negocio en las empresas. Por ejemplo, para la empresa de paquetería UPS el uso del Big Data supuso la optimización de las rutas de reparto, con un considerable ahorro en combustible y la disminución del tiempo de entrega de sus paquetes, lo que se tradujo en una mejora evidente en la calidad de vida de sus empleados. Asimismo, los algoritmos de Amazon son capaces de dibujar las tendencias para dirigir al consumidor hacia el producto que está buscando desde la pantalla de inicio y así facilitar el proceso de compra.

La importancia del análisis predictivo en las empresas lo analizaremos en el siguiente apartado. 

Análisis prescriptivo.

Se realiza con el propósito de revelar las posibles consecuencias que una acción puede ocasionar para el negocio. El análisis prescriptivo facilita la elección de las estrategias más adecuadas o que generen mejores resultados para la empresa.

Análisis descriptivo.

Este tipo de análisis proporciona información sobre la situación presente a partir de datos históricos, por lo que está enfocado a la toma de decisiones en tiempo real.

Se emplea, por ejemplo, para recopilar información sobre la propia organización interna de una empresa, permitiendo conocer mejor las fortalezas y debilidades de sus empleados, así como detectar perfiles de los que abandonaron la empresa o podrían abandonarla. De este modo, se pueden diseñar acciones para favorecer la motivación y el compromiso de los empleados o realizar una selección de perfiles más estratégica, atendiendo a las necesidades o, incluso, carencias de la empresa.

Análisis diagnóstico.

Se utiliza para examinar los resultados y la evolución de determinadas acciones empresariales. De este modo, se pueden aplicar ajustes puntuales en las estrategias que se están implementando.

Componentes de business intelligence en la big data 18:

Aunque Business Intelligence y Big Data son dos tecnologías con una finalidad prácticamente idéntica que es el análisis de datos, existen algunas diferencias entre estas dos tecnologías, tanto en cómo operan como en el tipo de datos que analizan. Big Data va un paso más allá que Business Intelligence pero sin Business Intelligence no habríamos llegado a Big Data, es decir, Business Intelligence es un paso previo a Big Data.

Las tecnologías de cada una de ellas las forman herramientas complementarias: mientras el Big Data ofrece un análisis profundo y una visión global de los datos, Business Intelligence aporta al usuario una experiencia de datos más estructurada y detallada.

Elementos y/o componentes de Business Intelligence como los Dashboards, los reports o métricas de rendimiento pueden ser muy importantes a la hora de ofrecer fiables análisis avanzados, que además formen una solución visualmente atractiva. A continuación, te mostramos en detalles tres componentes elementales del BI:

Data Warehouse (DW)

Una Base de Datos pensada para almacenar y procesar un gran volumen de datos, donde está integrada información de distintas fuentes, como pueden ser CRM, Google Analytics, Twitter, sistemas contables, administrativos y fiscales, datos de ficheros de Texto, ficheros Excel, comentarios de Blogs, etc. Todo ello en una única plataforma, donde sea posible distribuir la información preparada para su análisis y exploración.

Procesos ETL (Extract, Transform, Load)

Cuando hablamos de ETL nos referimos a los procesos de tratamiento de la información desde las diferentes fuentes de datos para poder alimentar el Data Warehouse con información de calidad. Al trabajar con grandes cantidades de datos, en algún momento tenemos que hacer una serie de tareas de forma manual para extraer datos, cruzar información y tener todo organizado en la base de datos escogida. Cuando trabajamos con Business Intelligence y con un Data Warehouse es necesario automatizar este proceso y sacar partido de las herramientas de ETL adecuadas.

Data Mining o Minería de Datos

Es el proceso de análisis de datos. Suele ser una tarea para matemáticos y estadísticos, pero hay herramientas que facilitan este trabajo a usuarios de negocios o analistas. Debemos entender que Data Mining es un proceso; no es simplemente ejecutar un determinado algoritmo que realiza alguna tarea como, por ejemplo, una regresión lineal o una serie de cálculos y ya está. Este proceso solamente de cálculo no es Data Mining aunque sí pueda llegar a entenderse como un análisis de datos.






Diferencia entre business intelligence y big data 18:

La recopilación y análisis de datos son herramientas muy poderosas para las empresas actuales; el Big Data y el Business Intelligence resultan vitales para el aumento de la productividad.


La información procedente de fuentes diversas sería lo que conocemos por Big Data, mientras que Business Intelligence o inteligencia de negocio sería el uso que las empresas hacen de todos esos datos. Por lo tanto, la principal diferencia entre Big Data y Business Intelligence radica en que mientras la primera se centra en la obtención de información sin más, la segunda está concebida para analizar todos esos datos y tomar las mejores decisiones fundamentadas en esos análisis.

En Internet, en tan solo un minuto, se mueven millones de datos entre e-mails, compras online, vídeos que se suben, historias que se comparten o fotografías que se cuelgan en las diferentes redes sociales. Estos datos son los que se crean al escribir, grabar o hacer fotos, pero existen otros muchos que se generan solos, por ejemplo, a través de los relojes inteligentes que miden la actividad física de sus usuarios, de los satélites o de los GPS.

Comentarios

Entradas populares