Tag: big data

Qué es Elasticsearch

ElasticSearch es un gestor de datos y motor de búsqueda basado en Lucene. Se trata de un sistema distribuido que permite trabajar con un gran volumen de datos de cualquier tipo, con una interfaz web RESTful de búsqueda así como clientes para distintos lenguajes de programación, y un sistema de analítica que permite realizar consultas en tiempo real. Elasticsearch está publicado como open source (código abierto) bajo licencia Apache y desarrollado en Java. Se trata de una tecnología que ayuda a optimizar la arquitectura de datos de nuestro negocio.

También es conocido bajo el acrónimo ELK, un conjunto de tres tecnologías de código abierto:

  • Elasticsearch. Motor de búsqueda y análisis.
  • Logstash. Canal de procesamiento de la información que ingiere datos de múltiples fuentes simultáneamente, las transforma y luego las envía a un “stash” como Elasticsearch.
  • Kibana. Permite la visualización de datos a través de tablas y gráficos.

Qué ventajas ofrece Elasticsearch

  1. Sistema distribuido. Los datos se almacenan en diferentes sistemas que colaboran entre sí y nos muestran los resultados que les demandamos en cada momento en una sola petición.
  2. Multitenencia de datos. Nos permite operar sobre distintos índices al mismo tiempo y así potenciar nuestras búsquedas.
  3. Acceso en tiempo real. Esta tecnología nos permite acceder de forma instantánea a los datos.
  4. Búsqueda de texto completo. Usar Elasticsearch hace que implementen una gran cantidad de funciones, tales como la división personalizada de texto en palabras, derivación personalizada, búsqueda personalizada, etc.
  5. Autocompletado y búsqueda instantánea. Buscar mientras el usuario escribe. Pueden ser simples sugerencias de búsquedas tratando de predecirlas en base al historial de búsqueda, o simplemente haciendo una búsqueda completamente nueva para cada palabra clave. Esta opción funciona como ocurre en el buscador Google, que escribimos una palabra y nos sugiere otras opciones de búsqueda. Además, al usar Elasticsearch nos permite encontrar lo que estamos buscando aunque tenga un error ortográfico.
  6. Consultas complejas y afinación. Elasticsearch tiene una poderosa DSL basada en JSON, que permite a los equipos de desarrollo construir consultas complejas y afinarlas para recibir los resultados más precisos de una búsqueda. También proporciona una forma de clasificar y agrupar los resultados.
  7. Ahorro tiempo de análisis y mayor velocidad. Elasticsearch puede ejecutar consultas complejas extremadamente rápido. También almacena casi todas las consultas estructuradas comúnmente utilizadas como filtro para el conjunto de resultados y las ejecuta solo una vez. Para cada otra solicitud que contiene un filtro en caché, comprueba el resultado de la caché. Esto ahorra el tiempo de análisis y ejecución de la consulta mejorando la velocidad.
  8. Elasticsearch está orientado a documentos.  Elasticsearch no utiliza esquemas, acepta documentos JSON e intenta detectar la estructura de datos, indexar los datos y hacer que se pueda buscar.
  9. Uso de facetas. Una búsqueda facetada es más sólida que una búsqueda de texto típica, lo que permite a los usuarios aplicar una cantidad de filtros a la información e incluso tener un sistema de clasificación basado en los datos. Esto permite una mejor organización de los resultados de búsqueda y permite a los usuarios determinar mejor qué información necesitan examinar.
  10. Escalabilidad horizontal y registro de nodos. Elasticsearch permite escalar horizontalmente, por lo que, gracias a su diseño, permite extender los recursos y equilibrar la carga entre los nodos de un cluster. Además, registra cualquier cambio realizado en registros de transacciones en múltiples nodos en el clúster para minimizar la posibilidad de pérdida de datos. Por otro lado, estos cluster pueden detectar aquellos nodos que fallan y reorganizarlos para que los datos siempre sean accesibles.

Al tratarse de una tecnología de open source, en su web, existen diversos videos tutoriales y webinars a los que puedes acceder de forma gratuita tan solo facilitando tu correo electrónico puedes aprender a utilizar Elasticsearch ¡si aún no lo has hecho!

videos_elasticsearch

En todo proyecto en el que se trabaja con Big Data,  la visualización de datos es una de las áreas más relevantes para la comprensión y análisis de datos masivos. Asimismo, poder sacar partido a toda esa información y extraer conclusiones es imprescindible para cualquier empresa que trabaje con Big Data.

En concreto, la visualización de grandes volúmenes datos (Big Data Visualization) consiste en representar de forma comprensible y medible los datos obtenidos del procesamiento y modelización de grandes volúmenes de datos (Big Data) con el objetivo de, no sólo de mostrar de forma más atractiva los datos, sino de comunicar esta información de forma clara y entendible a través de gráficos, diagramas o infografías. En este punto es donde entran en juego las herramientas para la visualización de datos masivos. Saber elegir la herramienta adecuada para aquello que queramos comunicar es imprescindible para desarrollar una analítica empresarial o Business Analytics de forma eficiente.  A continuación, desglosamos cinco herramientas para la visualización de datos:

TABLEAU 

Se trata de una de las más conocidas herramientas de visualización de datos. Su interfaz permite generar visualizaciones sobre grandes volúmenes de datos y personalizarlo.  Posee una versión gratuita: Tableau Public, con la que puedes crear mapas interactivos, gráficos de barras, tartas, etc. de forma sencilla.

Características:

  • Puede importar tablas Excel,
  • Gráficos interactivos y pueden ser embebidos en tu web y/o compartirlos
  • Gráficos Responsive, optimizados para visualizarlos en diversos dispositivos (tablets y moviles)

QLIK View & Sense

QlikView pertenece a la empresa Qlik la cual posee varios productos para la visualización de datos masivos. El más popular es QlikView. Destaca por su sencillez, con una configuración muy personalizable, permitiendo a los usuarios tomar decisiones basadas en datos. Posibilita trabajar con grandes cantidades de datos procedentes de diferentes fuentes. La otra herramienta de la empres Qlik se llama QkikSense. Se trata de una versión aún más sencilla que QlikView para crear visualizaciones flexibles e interactivas.

QlikView y Qlik Sense comparten el mismo motor y una serie de capacidades básicas, pero hay diferencias entre ellos que reflejan tanto los avances en tecnología, como la evolución de las necesidades del consumidor en el mercado.

Características:

  • Gráficos Responsive, optimizados para visualizarlos en diversos dispositivos (tablets y móviles)
  • Permite formular y responder sus propias preguntas y seguir sus propias rutas hacia el conocimiento.

PLOTLY

Plotly, también conocida por su versión web Plot.ly, es una herramienta de visualización y análisis de datos online. Se trata de un software colaborativo bastante flexible que ofrece visualizaciones complejas y sofisticadas. Posee todo tipo de gráficas: columnas, líneas, circulares, histogramas, etc. Funciona con cualquier formato de datos (Excel, CSV o texto) y se puede importar desde Google Drive o Dropbox.

Características:

  • Está integrado con lenguajes de programación como Python, JavaScript o Matlab.
  • Se puede compartir y editar datos, gráficas y macros con otros usuarios.

CARTO

Aunque esta tecnología sólo permite establecer visualizaciones de datos masivos sobre mapas, se trata de un servicio open source dirigido a cualquier usuario, independientemente del nivel técnico que tenga, con una interfaz muy amigable. Carto ofrece dos aplicaciones muy completas: Carto Builder, donde los usuarios pueden administrar datos, ejecutar análisis o diseñar mapas personalizados; y Carto Engine, el cual ofrece un conjunto de bibliotecas para crear interfaces de visualización de mapas y datos personalizados.

Características:

  • Permite crear una gran variedad de mapas interactivos, lo que permite elegir entre el catálogo que el mismo servicio ofrece, incluir mapas de Google Maps, o agregar a la lista tus propios mapas personalizados.
  • Permite el acceso a los datos de Twitter.

KIBANA

Kibana es un complemento de visualización de datos de código abierto para Elasticsearch. Posee una gran variedad de gráficos interactivos: histogramas, gráficos de líneas, gráficos circulares, rayos solares, etc. Además, puedes diseñar tus propias visualizaciones y Elastic Maps para visualizar datos geoespaciales. Todos ellos aprovechan las capacidades de agregación de Elasticsearch.

Características;

  • Con Kibana se puede detectar las anomalías que se esconden en los datos de Elasticsearch y explorar las propiedades que los influencian significativamente.
  • Kibana permite visualizar los datos de Elasticsearch y navegar por Elastic Stack, de modo que puedes hacer cualquier cosa, desde saber por qué te están buscando por Internet a las 2:00 a.m. hasta comprender el impacto que la lluvia puede tener en tus números trimestrales.

kibana_web

ALGORITMO.  En Ciencias de la Computación, un algoritmo es un conjunto de pasos para realizar una tarea. En otras palabras, una secuencia lógica  y con instrucciones que forman una fórmula matemática o estadística para realizar el análisis de datos.

ANÁLISIS DE SENTIMIENTO. El análisis de sentimiento se refiere a los diferentes métodos de lingüística computacional que ayudan a identificar y extraer información subjetiva del contenido existente en el mundo digital. Gracias al análisis del sentimiento, podemos ser capaces de extraer un valor tangible y directo, como puede ser determinar si un texto extraído de la red Internet contiene connotaciones positivas o negativas.

ANÁLISIS PREDICTIVO (AP). El análisis predictivo pertenece al área de la Analítica Empresarial. Se trata de utilizar los datos para determinar que puede pasar en el futuro. La AP permite determinar la probabilidad asociada a eventos futuros a partir del análisis de la información disponible (presente y pasada). También permite descubrir relaciones entre los datos que normalmente no es detectada con un análisis menos sofisticado. Técnicas como la minería de datos (data mining) y los modelos predictivos son utilizados.

ANALÍTICA EMPRESARIAL (AE). La Analítica Empresarial comprende los métodos y las técnicas que se utilizan para recopilar, analizar e investigar el conjunto de datos de una organización, lo cual genera conocimiento que se transforma en oportunidades de negocio y mejora la estrategia empresarial. AE permite una mejora en la toma de decisiones ya que éstas se basan en la obtención de datos reales y tiempo real y permite conseguir objetivos empresariales a partir del análisis de estos datos.

BIG DATA (Grande volúmenes de datos). Actualmente nos encontramos en un entorno en el que cada día se generan trillones de bytes de información. A esta enorme cantidad de datos producidos día a día, la denominamos Big Data. El crecimiento de los datos provocados en Internet y otras áreas (Ej. Genómica) hacen necesarias nuevas técnicas para poder acceder y utilizar estos datos. Al mismo tiempo estos grandes volúmenes de datos ofrecen nuevas posibilidades de conocimiento y nuevos modelos de negocio. En particular, en Internet, este crecimiento comienza con la multiplicación en el número de webs comenzando los buscadores (ej. Google) a buscar nuevas formas de almacenar y acceder a estos grandes volúmenes de datos. Esta tendencia (blogs, redes sociales, IoT …) está provocando la aparición de nuevas herramientas de Big Data y la generalización de su uso.

BUSINESS ANALYTICS (Analítica Empresarial). La Analítica Empresarial o Business Analytics permite conseguir los objetivos empresariales, a partir del análisis de datos. Básicamente permite detectar tendencias y realizar pronósticos a partir de modelos predictivos y utilizar estos modelos para optimizar los procesos de negocio.

BUSINESS INTELLIGENCE (Inteligencia de Negocio). Otro concepto relacionado con la AE es la Inteligencia Empresarial (IE) centrada en el uso de los datos de una empresa para facilitar también la toma de decisiones y anticipar acciones empresariales. La diferencia con la AE es que la IE es un concepto más amplio, no solo se centra en el análisis de datos sino que éste es un área dentro de la IE. Es decir, la IE se trata de un conjunto de estrategias, aplicaciones, datos, tecnología y arquitectura técnica entre las que se encuentra la AE; y todo ello, enfocado a la creación de nuevo conocimiento a través de los datos existentes de la empresa

DATA MINING o minería de datos. Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc.  Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

DATA SCIENCE (Ciencia de datos).  La oportunidad que los datos ofrecen para generar nuevo conocimiento requiere de técnicas sofisticadas de preparación de estos datos (estructuración) y análisis de los mismos. Así en Internet, sistemas de recomendación, traducción automática y otros sistemas de Inteligencia Artificial se basan en técnicas de Data Science.

DATA SCIENTIST. El data scientist, como su propio nombre indica, es un experto en la Ciencia de Datos (Data Science). Su trabajo se centra en extraer conocimiento a partir de grandes volúmenes de datos (Big Data) extraídos de diversas fuentes y múltiples formatos para dar respuesta a las cuestiones que se planteen.

DEEP LEARNING o aprendizaje profundo es una técnica dentro del machine learning basado en arquitecturas neuronales. Un modelo basado en deep learning puede aprender a realizar tareas de clasificación directamente a partir de imágenes, texto o sonido, etc. Sin necesidad de intervención humana para la selección de características, esto se puede considera la principal característica y ventaja del deep learning, llamada “feature discovering”. Pueden, además, poseer una precisión que supera al ser humano.

GEOMARKETING. El análisis conjunto de los datos demográficos, económicos y geográficos posibilita estudios de mercado para rentabilizar las estrategias de marketing. El análisis de este tipo de datos se puede llevar a cabo a través del Geomarketing. Tal como su propio nombre indica, Geomarketing es una confluencia entre geografía y marketing. Se trata de un sistema integrado de información -datos de diversa índole-, métodos estadísticos y representaciones gráficas orientados a dar respuestas a cuestiones de marketing de forma rápida y sencilla.

INTELIGENCIA ARTIFICIAL. En computación se trata de programas o bots diseñados para realizar determinadas operaciones que se consideran propias de la inteligencia humana. Se trata de hacer que éstos sean tan inteligentes como un humano. La idea es que perciban su entorno y actúen en base a ello, centrado en el auto-aprendizaje, sean capaces  de reaccionar ante nuevas situaciones.

INTELIGENCIA ELECTORAL. Este nuevo término “Inteligencia Electoral (IE)” es la adaptación de modelos matemáticos y de Inteligencia Artificial a las peculiaridades de una campaña electoral. El objetivo de esta inteligencia es la obtención de una ventaja competitiva en los procesos electorales. ¿Sabes cómo funciona?

INTERNET OF THINGS (IoT). Este concepto, Internet de las Cosas, fue creado por Kevin Ashton y hace referencia al ecosistema en el que los objetos cotidianos están interconectados a través de Internet.

MACHIEN LEARNIN (Aprendizaje automático). Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial,  donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención de poder predecir comportamientos futuros.

MINERÍA WEB. La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web. La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs.

OPEN DATA. El Open Data es una práctica que tiene la intención de disponer de unos tipos de datos de forma libre para todo el mundo, sin restricciones de derecho de autor, patentes u otros mecanismos. Su objetivo es que estos datos puedan ser consultados, redistribuidos y reutilizados libremente por cualquiera, respetando siempre la privacidad y seguridad de la información.

PERIODISMO DE DATOS (periodismo computacional). De una forma simple y directa, se trata del periodismo que para crear artículos o investigaciones periodísticas se requiere del conocimiento de técnicas del áreas de data science, big data, inteligencia artificial, entre otras. El periodista de datos debe ser  capaz de dar soporte a sus artículos mediante el análisis de datos, utilizando técnicas analíticas como el análisis de redes sociales, clustering, information retrieval, recommendation systems, etc.

PROCESAMIENTO DEL LENGUAJE NATURAL (PLN). Del procesamiento conjunto de la ciencia computacional y la lingüística aplicada, nace el Procesamiento de Lenguaje Natural (PLN o NLP en inglés), cuyo objetivo no es otro que el de hacer posible la compresión y procesamiento asistidos por ordenador de información expresada en lenguaje humano, o lo que es lo mismo, hacer posible la comunicación entre personas y máquinas.

PRODUCT MATCHING. El Product Matching es un área perteneciente a Data Matching o Record Linkage encargada de identificar automáticamente aquellas ofertas, productos o entidades en general, que aparecen en la web procedente de diversas fuentes, aparentemente de forma distinta e independiente, pero que hacen referencia a una misma entidad real. En otras palabras, el proceso de Product Matching consiste en relacionar para distintas fuentes aquellos productos que son el mismo.

 

En publicaciones anteriores de nuestro Blog hablábamos de la 4ª Revolución Industrial, la cual definimos como la introducción de las tecnologías digitales en la Industria, dando paso a la Industria 4.0. En esta nueva revolución prima el talento, la sostenibilidad y la digitalización.

Bien sabemos que sectores como el farmacéutico, de servicios o petrolero han experimentado constantes innovaciones tecnológicas e inversiones en I+D a lo largo de estos últimos años. Sin embargo, la industria de la construcción se ha quedado atrás.

Según la última Encuesta sobre Innovación del INE (2015), de todo el gasto en innovación realizado por las empresas españolas, solo el 1,1% procede de la construcción. Esta cifra se ve duplicada en la mayoría de países europeos e incrementada hasta el 2.9% en EEUU. Ante tal circunstancia, observamos como nuestro país tiene como asignatura pendiente innovar en este sector.

Tal y como se comenta en publicaciones realizadas por parte de elEconomista.es y EL PAÍS Retina, la filosofía BIM (Building Information Modeling), tipo de software que está impulsando la digitalización de la construcción, facilita la entrada de otras innovaciones tecnológicas como:

  • Realidad Virtual: se emplea para enseñar lo que se planea, pasear por dentro de un edificio o corregir un defecto.
  • Gamificación: herramienta de colaboración y resolución de problemas capaz¡ces de captar el talento de las empresas y de gran utilidad para mejorar la experiencia y relación con el cliente.
  • Drones:  permiten un mejor seguimiento de la obras, tanto desde el punto de vista del avance de los trabajos como de la inspección de las unidades de obra, la logística de los trabajos o la idoneidad de las medidas seguridad e higiene en el trabajo.
  • IoT (Internet of Things/Internet de las Cosas): apoyan las comunicaciones abiertas y los estándares dentro del espacio del edificio, ayudando con costes reducidos y posibilidades mejoradas de la integración.
  • Robots: pretenden la automatización de las tareas.
  • Big Data e Inteligencia Artificial: útiles para analizar la información de los drones y detectar dónde va a tener problemas un edificio  y tener alertas de Inteligencia Artificial.
  • Impresión 3D: facilita una mayor precisión y menor empleo en costes y tiempo.

De todas estas tendencias los robots, el Big Data y la Inteligencia Artificial son quienes desempeñan un mejor papel de cara al futuro en cuanto a innovación y mejoras del sector.

En primer lugar cabe mencionar algunos ejemplos de robots o prototipos de ellos existentes en la actualidad, los cuales están acelerando los procesos de construcción:

  • SAM100: un robot que se puede mover a través de un andamio para pegar ladrillos, capaz de colocar 300 por hora con una alineación perfecta, moviéndose a la par que otros operarios de la obra.
  • Hadrian X: un brazo de 30 metros montado sobre un camión que usa una guía láser para saber dónde tiene que colocar cada ladrillo sin moverse de su sitio y prácticamente sin intervención humana.
  • Cogiro: un robot de cables que permite la creación in situ de grandes piezas e incluso de pequeños edificios, el cual incluye los últimos avances en el campo de la robótica, la fabricación digital y la impresión 3D. También hace posible la producción de piezas personalizadas así como la obtención de información en tiempo real del estado de la construcción.

Los dos primeros robots corren de la mano de empresas estadounidenses que muestran la gran ventaja de este país sobre el resto del mundo en el sector de la construcción. Sin embargo entra en juego TECNALIA, una empresa vasca de transformación tecnológica, con la creación de Cogiro, desarrollado junto con el Institute for Advanced Architecture of Catalonia (IAAC).

Siguiendo el hilo de estas tendencias, según fuentes del diario El Mundo, desde Virasco, primera plataforma web que facilita al usuario el control del progreso y la prevención de un proyecto de construcción telemáticamente desde un ordenador, afirman que el objetivo de la Inteligencia Artificial es:

“Facilitar la identificación temprana de desviaciones respecto a la planificación del proyecto, y por otro, posibilitar el control remoto de la seguridad en obra. Esto es posible gracias a que toda la información de dicho proyecto está digitalizada en un modelo BIM que se utiliza para comparar la ejecución real con la planificada, al tiempo que el procesado digital de las imágenes capturadas permite mejorar la prevención en la obra”.

El papel que desempeña el Big Data es más complejo e importante, ya no solo en cuanto a la gestión, manejo y análisis de grandes volúmenes de datos, sino también en la explotación de los mismos. Es ahí donde entran en juego el sector de la ingeniería y de la construcción, implantando esta herramienta desde principios de 2017. En la actualidad, la madurez de la tecnología y el software, están permitiendo que su implementación sea cada vez más accesible.

En este sentido son también estadounidenses las empresas pioneras en la incorporación del Big Data para mejorar y agilizar los procesos de construcción, tales como JE DUNN y Autodesk, las cuales se han asociado para construir sistemas que permiten el modelado predictivo basado en datos en tiempo real.

Tal y como comenta DETEA en un artículo, Estos avances suponen una gran mejora en la estimación de costes y otros beneficios, como por ejemplo:

  • Ayudar a determinar qué construir y dónde hacerlo, ya que nos proporciona, entre otros, datos sobre el diseño y modelado de edificios, del entorno o de los medios sociales.
  • Permite determinar la fase óptima de las actividades de construcción.
  • Obtener datos con la aplicación de sensores en cualquier tipo de construcción, favoreciendo su monitorización en muchos niveles de rendimiento, como por ejemplo la eficiencia energética de un edificio. Además, estos datos se pueden volver a introducir en los sistemas de BIM para programar las actividades de mantenimiento según sea necesario.

Tras este análisis, los lectores pueden llegar a pensar que estas mejoras digitales en el sector de la construcción se están implantando para reducir los puestos de trabajos, ya que ordenadores, robots u otros dispositivos digitales los sustituirán. Esta creencia es errónea, puesto que el principal motivo de la digitalización del sector es precisar, automatizar y mejorar el trabajo del jefe de obra (en el seguimiento de la ejecución del proyecto) y al responsable de seguridad (en los temas relacionados con la prevención), entre otros puestos. Es por todo ello que todas estas tendencias impulsan tanto el sector de la construcción como su mercado de trabajo.