Tag: Machine Learning

La mayoría de la información ofrecida por instituciones, diputaciones y otros organismos públicos, popularmente conocida como Open Data, es digitalizada y publicada a través de diferentes canales en Internet. Estos datos abiertos pueden ser tanto disposiciones de licitaciones, ayudas, subvenciones, multas de tráfico, oposiciones, concursos oficiales, etc. Este tipo de información es buscada día a día por diversos usuarios y empresas de diferente índole que desean consultar estas bases de datos de Open Data.

Pero, claro, toda esta información no está estructurada (desordenados) y cada dato está publicado en una web diferente bajo un formato distinto (PDF, HTML, XML,…). Hoy en día no existe una página pública o herramienta comercial que aglutine y extraiga todos estos datos descritos bajo una misma web. Tampoco existe un protocolo o normalización estándar de “cómo se deben publicar”.

Además de la gran heterogeneidad del Open Data (origen y formato), en el 95% de los casos, esa información no está estructurada y necesita un tratamiento por una persona para que sea útil. Si se tiene en cuenta la cantidad de canales a extraer y el volumen de información publicado, incluso considerando sólo lo publicado diariamente, se hace inmanejable para una persona.

En resumen, la situación de partida es que estamos ante un gran volumen de datos que requiere la necesidad de una herramienta que facilite la consulta y extracción de estos datos. Gracias a la inteligencia artificial y el Machine Learning (aprendizaje automático), tenemos la solución: NetOpenData. Se trata de una herramienta que facilita el acceso a los datos del sector público y open data. Se trata de un servicio para acceder a la información de forma estructurada y bajo un solo paraguas, una sola web.

¿Cómo funciona el sistema de inteligencia artificial diseñado?

La innovación principal de NetOpenData parte de obtener, procesar y ofrecer este tipo de información de forma estructurada siguiendo un enfoque automático. Para ello se han aplicado diferentes técnicas de aprendizaje, siguiendo un enfoque supervisado relacionado con:

Se han desarrollado sistemas capaces de dar solución a la extracción masiva de recursos a partir de Internet, la segmentación de textos, la clasificación de textos y la extracción de información en textos. Además, de cara a la extracción masiva de información se ha hecho uso de herramientas pensadas para este tipo de entornos que permitan trabajar desde una perspectiva paralela capaz de organizar el trabajo siguiendo un enfoque escalable y distribuido ya que de otra forma el sistema no es capaz de procesar toda la información recogida.

Otros de los puntos fuertes de NetOpenData es la utilización de las últimas tecnologías de almacenamiento. Sistemas que surgieron hace poco y están adaptadas a los procesamientos de información en tiempo real. Esto es una ventaja debido a que desde su base de creación se están enfocando a problemas actuales como cargas masivas de datos (Big Data) o tiempos de respuesta y almacenamiento bajos, una gran problemática que les cuesta solventar a las bases de datos tradicionales, debido a la robustez que ya tienen.

¿Qué ventajas posee este sistema de Inteligencia Artificial?

  • Permite extraer unos recursos concretos (Ej. Boletines Oficiales) a través de diferentes canales (Ej. Web de una Diputación) de una forma automática, teniendo en cuenta las peculiaridades de los datos a extraer, así como el uso que se le tiene pensado dar.
  • Es capaz de tratar cada recurso extraído con el fin de obtener de él una información útil para el usuario:
    • Segmentar el índice del contenido.
    • Segmentar el contenido en disposiciones.
    • Clasificar el idioma de la disposición.
    • Clasificar las disposiciones en función a una taxonomía.
  • Puede ordenar determinadas piezas de información según el idioma y el tipo de la disposición.
  • Hace posible guardar de forma persistente tanto la información bruta como la estructurada fruto del tratamiento indicado anteriormente, teniendo en cuenta el uso que se le tiene pensado dar y el volumen generado.
  • Ofrece al usuario el acceso a los datos de forma más práctica y eficaz posible, a través de una única página web que permite:
    • la visualización y filtración de datos
    • la descarga de disposiciones concretas
    • la creación de alertas de disposiciones en base a una serie de filtros concretos.

¿Qué tipo de datos públicos puedes obtener con NetOpenData?

Boletines Oficiales, Patentes, Marcas, Ayudas, Nombres Comerciales, Contrataciones y Licitaciones. Toda esta información se estructura para puedas utilizarlo de forma fácil y sencilla en tu empresa o para que puedas montar servicios innovadores a partir de estos datos.

NetOpendata

Por otro lado, en ITELLIGENT nos adaptamos a las necesidades de cada uno de nuestros clientes por lo que si tu empresa requiere otros datos diferentes a los que aporta NetOpenData o desea enlazar los datos de nuestro software con otras fuentes, también somos especialistas en hibridación de datos.

Spark es un framework que proporciona una serie de plataformas, sistemas y normas interconectados para proyectos de Big Data.

Al igual que Hadoop, Spark es un framework de código abierto y bajo el ala del Apache Software Foundation. Al ser código abierto puede ser modificado para crear versiones personalizadas dirigidas a problemas específicos o industriales. Tanto los desarrolladores individuales  como las empresas crean versiones personalizadas que  perfeccionan y actualizan constantemente el core añadiendo más funcionalidades y mejoras de rendimiento. De hecho, Spark fue el proyecto más activo de Apache el año pasado. También fue la más activa de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores de más de 200 organizaciones.

Spark es visto por los expertos como un producto más avanzado que Hadoop. Está diseñado para trabajar “In-memory”. Esto significa que transfiere los datos desde los discos duros a memoria principal – hasta 100 veces más rápido en algunas operaciones-. Estas transferencias se realiza partiendo estos datos en diversos “Chunks”

Spark es muy popular y usado por grandes empresas para  el almacenamiento y análisis de datos al nivel “multi-petabyte”, esto ha sido posible gracias a su velocidad. En 2014, Spark estableció un récord mundial al completar un benchmark que incluía la selección de 100 terabytes de datos en 23 minutos – el récord mundial anterior era de 71 minutos conseguido por Hadoop.

Asimismo, este framework ha demostrado ser muy adecuado para aplicaciones de aprendizaje automático. El Machine Learning (aprendizaje automático) es una de las áreas de informática más apasionante y de las que más rápido está creciendo.  A los ordenadores se les enseña a detectar patrones en los datos y a adaptar su comportamiento basado en el modelado y análisis automático de cualquier tarea que estén llevando a cabo.

Está diseñado desde cero para ser fácil de instalar y utilizar –para personas que tiene un mínimo de experiencia en informática-. Con el fin de ponerlo a disposición de más negocios, muchos proveedores ofrecen sus propias versiones -como ocurre con Hadoop-, que están dirigidos a determinados sectores, o con configuración personalizada para proyectos con clientes individuales, así como servicios de consultoría asociados para su creación y funcionamiento.

Spark utiliza el cluster computing para su potencia de cálculo (analítica) y su almacenamiento. Esto significa que puede utilizar los recursos de muchos nodos (oredenadores)  unidos entre sí para sus análisis. Es una solución escalable que significa que si se necesita más potencia de cálculo, sólo tiene que introducir más nodos en el sistema. Con el almacenamiento distribuido, los enormes conjuntos de datos recogidos para el análisis de grandes volúmenes de datos pueden ser almacenados en múltiples discos duros individuales más pequeños. Esto acelera las operaciones de lectura y/o escritura, debido al “head”, que lee la información de los discos con menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario, el hardware básico y comúnmente disponible (para cualquier disco duro de un ordenador estándar) supone menos costes de infraestructuras.

A diferencia de Hadoop, Spark no viene con su propio sistema de archivos, en lugar de eso, se puede integrar con muchos sistemas de archivos incluyendo de Hadoop HDFS, MongoDB y el sistema S3 de Amazon.

Otro elemento de este framework es el Spark Streaming, que permite en desarrollo de aplicaciones para el análisis de datos en streaming, datos en tiempo real – como el análisis automático de videos o datos de las redes sociales – “sobre la marcha” o en tiempo real.

En las industrias que cambian rápidamente como sucede en la industria del marketing,  el análisis en tiempo real tiene enormes ventajas. Por ejemplo, los anuncios pueden basarse en función del comportamiento de un usuario en un momento determinado, en lugar de ver el comportamiento histórico, aumentando la posibilidad de provocar el impulso de compra.

Esta es una breve introducción a Apache Spark – sobre qué es, cómo funciona  y por qué mucha gente piensa que es el futuro-.

Fuente: Bernard Marr  at “What Is Spark – An Easy Explanation For Absolutely Anyone“.

Traducción: ITELLIGENT INFORMATION TECHNOLOGIES, SL.