Blogs

Si les pregunto por la mejor manera de gestionar el almacén de una tienda de barrio, seguro que rápidamente llegamos a la conclusión de que existen determinados aspectos que son absolutamente necesarios como, por ejemplo, que esté ordenado (para poder encontrar el producto cuando nos lo pida un cliente), que exista un inventario (para saber cuántas unidades tengo, de qué modelo y si están en buen estado o alguna está cerca de caducar) y que esté cerrado con llave (para evitar que pueda entrar cualquiera a robarnos mercancía o simplemente a destrozarlo todo para que no podamos vender).

Si la tienda de barrio se convierte en Amazon, nadie dudará de que los 3 aspectos que hemos mencionado para el almacén de barrio siguen siendo aplicables, solo que los mismos aumentan en complejidad, pues el almacén contendrá muchos más productos (y será mucho más complicado mantenerlos ordenados), de tipos, calidades y precios muy dispares (por lo que el inventario aumentará en volumen y complejidad) y seguramente, tendrá un tamaño mucho mayor, con varias puerta de entrada (por lo que la será necesario que varias personas tengan todas las llaves de entrada o algunas o ninguna).

Algo muy similar a la comparación que acabamos de hacer es lo que sucede en las empresas cuando despliegan sus plataformas de Big Data. Pasan de tener repositorios de información pequeños y manejables, con información acotada y estructurada; a disponer de un Data Lake, con mucha mayor información, de fuentes y tipos hasta ahora desconocidos y donde todo el mundo tiene llave para entrar.

Por ello, si esta transición no se hace adecuadamente y con orden, el Data Lake tendrá para la empresa el mismo valor que tendrían para Amazon un almacén totalmente desordenado y, como se dice comúnmente, en lugar de un lago de datos, será un pantano (Data Swan).

La disciplina que se encarga de que esto no suceda es lo que se conoce como gobierno del dato que, por supuesto, es anterior a la existencia del Big Data pero que, con su aparición, ha aumentado igualmente en complejidad.

En este sentido y siguiendo con la misma metáfora que hemos planteado hasta ahora, el gobierno del dato debe cubrir los siguientes aspectos dentro de un proyecto de aplicación de tecnologías de Big Data:

  • Orden: Desde el punto de vista del orden, debe decidirse en qué zona del Data Lake se incorpora cada tipo de dato. Esto, que poca gente se plantea en un principio, se debe a que no todos los datos tienen el mismo valor, el mismo nivel de criticidad o el mismo volumen y, por tanto, debe determinarse la zona en que se almacenan (En un almacén, los productos más delicados se colocan protegidos de la luz, la humedad y los que se usan con más frecuencia se colocan más cerca de la puerta, para que sea más fácil acceder a ellos, por ejemplo). Igualmente, desde el punto de vista del orden, es necesario planificar cada cuanto se va a cargar nueva información (cada cuanto recibiremos nueva mercancía) para cumplir un doble propósito: (i) por un lado, garantizar que tendremos en stock los datos que me van a solicitar mis clientes y (ii) que disponemos de espacio suficiente en los almacenes para cargar la nueva información.

  • Inventario: Poseer un inventario detallado y actualizado de los productos (datos) de que disponemos actualmente es crítico. Así, cuando un cliente (analista o usuario de negocio) nos solicite un dato en concreto, podremos saber rápidamente si disponemos del mismo, que cantidad tengo, que calidad tienen, hace cuanto que entraron en mi almacén, si los mismos siguen teniendo valor o están desfasados o caducados. Del mismo modo, un buen inventario nos permitirá conocer el linaje del dato, es decir, saber quién es el fabricante del mismo (la fuente original), que empresa de transporte me lo ha entregado (herramienta utilizada para la carga), por cuantos almacenes ha pasado antes de llegar al mío, entre otros. Finalmente, si nuestro inventario dispone de un buen buscador que permita a mis usuarios encontrar los productos que quieren por ellos mismos, nos ahorraremos mucho trabajo de gestión. Para ello, tendremos que enseñar al buscador los términos que usarán los clientes en sus búsquedas, que es lo que se denomina “glosario de términos de negocio”.

  • Seguridad: Por último, pero especialmente en este caso, no menos importante, la seguridad es uno de los aspectos a los que se debe prestar mayor atención. Los datos son uno de los activos más valiosos en la actualidad y, por ello, se deben proteger igual o mejor que se protegen los productos en un almacén. Así, debemos dar llave del mismo sólo a las personas que realmente deban acceder y se deben instalar alarmas que avisen de accesos no permitidos o de intentos de robo.

Como sucedería en la evolución del almacén de una tienda física, la implementación de todas estas políticas en el Data Lake de cualquier empresa, requerirá contar con nuevos empleados, especializados en el desempeño de las tareas que acabamos de mencionar. En este sentido, resultan especialmente destacables varias figuras que, a grandes rasgos, son las siguientes:

  • Responsable del Gobierno del Dato: Que será el individuo o el órgano encargado de diseñar las políticas y buenas prácticas a aplicar en la organización.

  • Data Manager: Es el encargado de aplicar las políticas de gobierno del dato en el día a día, desde el punto de vista organizativo y funcional. De forma muy resumida, es la persona encargada de decidir si un determinado usuario puede entrar o no al almacén (Data Lake) y en caso afirmativo, a qué zonas puede acceder.

  • Data Engineer: Es el encargado de aplicar las políticas desde el punto de vista técnico. Siguiendo con la metáfora, sería la persona que entregaría la llave de cada zona del almacén a aquellos usuarios cuya entrada haya autorizado el Data Manager.

Otro de los aspectos que resulta obvio en relación con el gobierno del dato es que el ejercicio de poner orden puede llevarse a cabo en cualquier momento pero que, si se hace desde el primer momento, resultará mucho más sencillo y menos traumático. Por tanto, lo ideal será tener en cuenta todos estos aspectos antes incluso de construir el Data Lake para que, una vez éste esté desplegado, los encargados de almacenar la información sepan desde el primer día en que zona deben guardarla y, los usuarios de negocio, si lo que buscan está disponible y dónde encontrarlo.

De acuerdo con lo anterior, el primer paso de todos para la consecución de un adecuado gobierno del dato de nuestra plataforma Big Data será evaluar nuestras capacidades actuales y nuestras necesidades futuras, para así conocer el camino que será necesario recorrer y dividir el mismo en tantas etapas como sean necesarias.

Por último, no me gustaría terminar este artículo sin mencionar los dos aspectos más fundamentales de cualquier proyecto de implementación de gobierno del dato. Y estos no son otros que:

  • comprender que la aplicación del Big Data Governance no debe ser responsabilidad de un departamento concreto de la organización, sino que debe ser una responsabilidad compartida de manera transversal; y

  • que la aplicación de las políticas de gobierno no deben hacerse mediante grandes sprints puntuales, sino que debe enfocarse como un proceso continuado, iterativo y en permanente revisión y mejora.

Telecommunications Delivery Manager @Synergic Partners | Follow me on Twitter (@alvaroalegriam)

1 COMENTARIO
  1. Leticia Alonso
    22 22UTC noviembre 22UTC 2016 Responder

    Una explicación muy clara y bien estructurada del gobierno del dato. Me ha sido de gran ayuda. Gracias Álvaro

DEJA TU COMENTARIO

Clientes destacados