Data Lake: Guía completa
para empresas
Publicado el 29 de mayo de 2026 · Por Databeans
Toda empresa genera datos desde decenas de sistemas distintos: el ERP, el CRM, plataformas de ecommerce, redes sociales, sensores IoT, archivos Excel compartidos por correo y hasta PDFs escaneados. Estos datos contienen respuestas valiosas —sobre qué producto impulsar, dónde reducir costos, qué clientes están a punto de irse—, pero solo si logras reunirlos, organizarlos y analizarlos de forma confiable. El Data Lake es la pieza de infraestructura que hace posible esa reunión. En esta guía explicamos qué es, cómo funciona, qué considerar antes de implementarlo y cómo evitar los errores más comunes que convierten un proyecto prometedor en un pozo de datos inutilizables.
1. ¿Qué es un Data Lake?
Imagina una bodega gigante donde puedes almacenar absolutamente todo lo que llega a tu empresa: cajas perfectamente etiquetadas (datos estructurados como tablas de ventas), paquetes con contenido variado (datos semi-estructurados como archivos JSON o XML) e incluso objetos sin clasificar (datos no estructurados como imágenes, correos electrónicos o grabaciones de llamadas). No importa el formato ni el tamaño: la bodega acepta todo y lo guarda tal cual llegó, sin obligarte a organizarlo antes de meterlo.
Eso, en esencia, es un Data Lake: un repositorio centralizado que almacena datos en su formato original (raw) a cualquier escala, desde gigabytes hasta petabytes. A diferencia de una base de datos tradicional o un data warehouse, el Data Lake no exige que definas la estructura de los datos antes de guardarlos. Primero almacenas, después decides cómo procesarlos y para qué usarlos.
¿En qué se diferencia de un Data Warehouse? Un data warehouse es como una tienda departamental perfectamente organizada: cada producto tiene su anaquel, su etiqueta y su código de barras. Solo entra mercancía que cumple con el formato establecido. Es ideal para reportes financieros y análisis estructurado, pero no sirve para almacenar datos crudos o no estructurados a gran escala.
¿Y un Lakehouse? El concepto de Data Lakehouse combina lo mejor de ambos mundos: la flexibilidad de almacenamiento del Data Lake con las capacidades de consulta, transacciones ACID y gobernanza del Data Warehouse. Tecnologías como Delta Lake, Apache Iceberg y Apache Hudi hacen esto posible al agregar una capa de gestión sobre el almacenamiento del lago. Hoy, la mayoría de las implementaciones modernas apuntan hacia un modelo lakehouse.
2. Consideraciones críticas antes de implementar un Data Lake
Antes de pensar en tecnología, hay que pensar en negocio. Un Data Lake sin un problema de negocio claro que resolver es solo un gasto en infraestructura. Estas son las preguntas que debes responder antes de escribir una sola línea de código:
- ¿Qué problema de negocio resuelve? Define casos de uso concretos. Por ejemplo: "Necesitamos cruzar datos de ventas, inventario y logística en tiempo real para reducir quiebres de stock en un 30%" es un caso de uso sólido. "Queremos tener todos nuestros datos en un solo lugar" es un deseo, no un caso de uso.
- ¿Quiénes consumirán los datos y cómo? No es lo mismo un equipo de analistas que necesita dashboards que un equipo de data scientists que quiere entrenar modelos de machine learning. El perfil de los consumidores define la arquitectura.
- ¿Cuáles son los KPIs de éxito? Define métricas medibles: tiempo de generación de reportes, disponibilidad de datos, reducción de errores en procesos manuales, ahorro de horas-persona.
- ¿Cuál es el ROI esperado? Cuantifica el valor de los casos de uso contra el costo de implementación y operación. Un Data Lake que cuesta más de lo que ahorra o genera no es un proyecto viable.
- ¿Existe el equipo para sostenerlo? Un Data Lake no es un proyecto que se entrega y se olvida. Necesita mantenimiento, monitoreo y evolución continua. Si no tienes equipo interno ni presupuesto para un partner externo, reconsidera el alcance.
3. Fuentes de datos y volumetría
El primer ejercicio práctico antes de diseñar la arquitectura es hacer un inventario exhaustivo de fuentes de datos. Este inventario debe documentar:
- Sistemas fuente: ERP (SAP, Oracle, Dynamics), CRM (Salesforce, HubSpot), plataformas de ecommerce, bases de datos operacionales, APIs de terceros, archivos planos (CSV, Excel), logs de aplicaciones, datos de IoT.
- Volumen actual y proyectado: ¿Cuántos gigabytes o terabytes genera cada fuente al mes? ¿Cuál es la tasa de crecimiento? Una fuente que hoy genera 10 GB mensuales podría generar 100 GB en dos años si el negocio escala.
- Frecuencia de actualización: ¿Los datos se necesitan en tiempo real (streaming), cada pocos minutos (near real-time) o es suficiente con cargas diarias o semanales (batch)? No todo necesita ser en tiempo real, y pretender que sí lo sea encarece el proyecto significativamente.
- Tipos de datos: Estructurados (tablas con filas y columnas), semi-estructurados (JSON, XML, logs con formato variable) o no estructurados (imágenes, audio, video, documentos PDF).
- Sensibilidad: ¿Contienen datos personales (PII)? ¿Información financiera regulada? ¿Datos de salud? La sensibilidad determina los controles de seguridad y cumplimiento necesarios.
Este inventario es el mapa de tu Data Lake. Sin él, estarás construyendo a ciegas.
4. Arquitectura — Las capas bronze, silver y gold
La arquitectura más adoptada para organizar datos dentro de un Data Lake es el modelo de tres capas, que puedes entender con una analogía de cocina:
- Bronze (ingredientes crudos): Aquí llegan los datos tal cual salen de la fuente, sin ninguna transformación. Es como los ingredientes que compras en el mercado y metes directo al refrigerador: tomates sin lavar, carne sin cortar, hierbas con todo y raíz. Esta capa es tu copia fiel de los sistemas origen y funciona como respaldo histórico.
- Silver (ingredientes lavados y cortados): En esta capa se limpian, validan y estandarizan los datos. Se eliminan duplicados, se corrigen formatos de fecha, se unifican nombres de columnas entre diferentes fuentes y se aplican reglas de calidad. Es como lavar los tomates, cortar la carne en porciones y picar las hierbas: ya están listos para cocinar, aunque todavía no son un platillo.
- Gold (platillo terminado): Aquí los datos están agregados, modelados y listos para consumo directo. Son las tablas, métricas y datasets que alimentan dashboards, reportes ejecutivos y modelos de machine learning. Es el platillo servido en la mesa: listo para disfrutarse sin tener que cocinar nada más.
Arquitectura Data Lake: datos fluyen desde las fuentes, pasando por las capas bronze, silver y gold, con gobierno transversal.
ELT vs ETL: En arquitecturas modernas se prefiere el enfoque ELT (Extract, Load, Transform): primero extraes los datos de la fuente, los cargas al Data Lake en la capa bronze y después los transformas dentro del lago. Esto contrasta con el ETL tradicional, donde la transformación ocurre antes de la carga. ELT aprovecha la potencia de cómputo del lago y preserva los datos originales.
CDC (Change Data Capture): Para fuentes que se actualizan constantemente (como bases de datos transaccionales), el CDC captura solo los cambios incrementales en vez de copiar toda la tabla cada vez. Esto reduce drásticamente el volumen de transferencia y el tiempo de procesamiento.
Formatos de almacenamiento: Los formatos columnares como Parquet son el estándar por su eficiencia en compresión y velocidad de consulta. Sobre ellos, formatos de tabla abiertos como Delta Lake y Apache Iceberg agregan transacciones ACID, versionado de datos (time travel) y evolución de esquema, convirtiendo al Data Lake en un Lakehouse.
Motores de procesamiento: Apache Spark sigue siendo el motor de procesamiento distribuido más utilizado para transformaciones a gran escala. Plataformas como Databricks ofrecen Spark gestionado con optimizaciones propias. Snowflake es una opción popular para quienes prefieren un enfoque más cercano a SQL. Azure Synapse integra procesamiento big data con capacidades de warehouse en el ecosistema Microsoft.
Opciones de nube: Los tres grandes proveedores ofrecen almacenamiento de objetos como base para el Data Lake: Amazon S3 (AWS), Azure Data Lake Storage (Microsoft) y Google Cloud Storage (GCP). La elección depende del ecosistema tecnológico existente, los costos por región y las certificaciones de cumplimiento requeridas.
5. Gobierno de datos — Donde fallan la mayoría
Esta es la sección más importante de toda la guía. Un Data Lake sin gobierno de datos se convierte en un "data swamp" (pantano de datos) en menos de un año. Todos meten datos, nadie sabe qué hay, nadie confía en lo que encuentra y el lago se abandona. Es el error número uno de las implementaciones que fracasan.
El gobierno de datos no es un software que compras e instalas. Es un conjunto de políticas, procesos, roles y herramientas que garantizan que los datos sean encontrables, confiables, seguros y útiles. Incluye:
- Catálogo de datos: Un inventario centralizado y buscable de todos los datasets disponibles en el lago. Cada tabla o archivo debe estar documentado con su descripción, fuente de origen, frecuencia de actualización, propietario responsable y nivel de sensibilidad. Herramientas como Apache Atlas, Alation o el catálogo nativo de tu plataforma cloud hacen esto posible.
- Data lineage (linaje de datos): La capacidad de rastrear el recorrido de un dato desde su origen hasta su destino final. Si un número en un dashboard ejecutivo parece incorrecto, el lineage te permite recorrer toda la cadena de transformaciones para encontrar dónde se introdujo el error.
- Ownership y stewardship: Cada dataset debe tener un dueño de negocio (owner) que decide qué datos se capturan y para qué, y un data steward (responsable técnico) que garantiza la calidad y el cumplimiento de las políticas. Sin dueños claros, los datos se vuelven huérfanos.
- Calidad de datos: Reglas automatizadas que validan completitud, consistencia, precisión y frescura de los datos. Por ejemplo: "La tabla de ventas no puede tener más del 2% de registros sin ID de cliente" o "Los datos del ERP no pueden tener más de 4 horas de retraso". Las violaciones generan alertas automáticas.
- Ciclo de vida: No todos los datos necesitan vivir para siempre. Define políticas de retención (cuánto tiempo se conservan), archivado (mover datos viejos a almacenamiento más barato) y eliminación (borrar datos que ya no son necesarios o que la ley exige eliminar).
La regla de oro: implementa gobierno desde el día uno, no como un proyecto posterior. Gobernar un lago desordenado es exponencialmente más difícil que gobernar uno que nació con reglas claras.
6. Seguridad y cumplimiento
Un Data Lake concentra datos de toda la organización en un solo lugar, lo cual lo convierte en un objetivo atractivo para ataques y en un punto de riesgo regulatorio. La seguridad no es opcional ni es algo que se agrega al final. Debe diseñarse desde la arquitectura inicial.
- Control de acceso (RBAC y ABAC): Implementa control de acceso basado en roles (RBAC), donde los permisos se asignan según el puesto del usuario (analista, ingeniero, gerente), y complementa con control basado en atributos (ABAC) para reglas más granulares como "solo usuarios de la región norte pueden ver datos de clientes de la región norte".
- Cifrado: Los datos deben estar cifrados tanto en reposo (almacenados en disco) como en tránsito (cuando se mueven entre sistemas). Las plataformas cloud ofrecen cifrado por defecto, pero verifica que las claves estén gestionadas de forma adecuada (idealmente con un servicio de Key Management propio o del proveedor).
- Manejo de PII (datos personales identificables): Nombres, correos electrónicos, teléfonos, direcciones, CURP, RFC —cualquier dato que permita identificar a una persona requiere protección especial. Clasifica estos campos desde la ingesta y aplica controles diferenciados.
- Enmascaramiento y tokenización: El enmascaramiento reemplaza datos sensibles con valores ficticios pero realistas (el correo juan@empresa.com se muestra como j***@e*****.com). La tokenización sustituye el dato real con un token único que solo puede resolverse con una clave separada. Ambas técnicas permiten que los equipos trabajen con datos sin exponer información sensible.
- SSO (Single Sign-On): Integra el acceso al Data Lake con el sistema de identidad corporativo (Azure AD, Okta, Google Workspace) para evitar cuentas compartidas y facilitar el alta/baja de usuarios.
- Pistas de auditoría: Registra quién accedió a qué datos, cuándo y desde dónde. Estas pistas son indispensables para investigar incidentes y demostrar cumplimiento ante auditorías.
- Cumplimiento LFPDPPP: En México, la Ley Federal de Protección de Datos Personales en Posesión de los Particulares obliga a las empresas a obtener consentimiento informado, permitir derechos ARCO (acceso, rectificación, cancelación y oposición), notificar brechas de seguridad y designar un responsable de protección de datos. Tu Data Lake debe facilitar el cumplimiento de estas obligaciones, no complicarlo.
7. Costos y modelo financiero
Uno de los errores más comunes es subestimar el costo total de un Data Lake. El almacenamiento en la nube es barato, sí, pero el almacenamiento es solo una fracción del costo real. Debes considerar:
- CapEx vs OpEx: Un Data Lake on-premise (en tus propios servidores) implica inversión de capital inicial alta (CapEx) en hardware, licencias y espacio físico. Un Data Lake en la nube convierte ese costo en gasto operativo mensual (OpEx), más predecible pero que se acumula con el tiempo. La mayoría de las empresas optan por nube, pero es fundamental proyectar los costos a 3-5 años.
- Almacenamiento: Se cobra por gigabyte almacenado al mes. El costo varía según la clase de almacenamiento (estándar, acceso infrecuente, archivo) y la región. Parece barato individualmente, pero a escala de terabytes los números crecen rápido.
- Cómputo: Procesar datos (transformaciones, consultas, entrenamiento de modelos) consume recursos de cómputo que se facturan por tiempo de uso o por volumen de datos procesados. Este suele ser el componente más caro del Data Lake.
- Licencias: Herramientas de orquestación, catálogo de datos, visualización y monitoreo tienen costos de licenciamiento que deben sumarse. Algunas tienen opciones open source, pero el costo de operarlas internamente también cuenta.
- Egress (transferencia de datos de salida): Los proveedores cloud cobran por cada gigabyte que sale de su infraestructura. Si tu Data Lake está en AWS pero tus dashboards se consultan desde otra nube o desde herramientas on-premise, los costos de egress pueden ser significativos.
- TCO (Costo Total de Propiedad): Suma almacenamiento + cómputo + licencias + egress + costo de personal + costo de soporte + capacitación. Proyecta a 3 y 5 años. Compara contra el costo de no tener los datos (oportunidades perdidas, errores por decisiones sin datos, horas manuales de reporteo).
Modelos de facturación: Puedes optar por capacidad reservada (pagas un monto fijo por recursos comprometidos a 1-3 años, con descuento) o consumo bajo demanda (pagas solo lo que usas, más flexible pero más caro por unidad). La estrategia óptima suele combinar ambos: reservar capacidad base y usar bajo demanda para los picos.
8. Equipo y roadmap de implementación
Un Data Lake no se implementa solo con tecnología. Necesitas un equipo con los roles adecuados y una estrategia de implementación que priorice el valor rápido sobre la perfección.
Roles clave del equipo:
- Arquitecto de datos: Diseña la arquitectura del lago, define estándares de modelado, elige las tecnologías y asegura que todo sea escalable y mantenible.
- Data engineers: Construyen y operan los pipelines de ingesta, transformación y orquestación. Son quienes escriben el código que mueve y procesa los datos día a día.
- Data steward: Responsable de la calidad de los datos y del cumplimiento de las políticas de gobierno. Trabaja entre el negocio y el equipo técnico para garantizar que los datos sean confiables.
- DevOps / DataOps: Gestiona la infraestructura, la automatización de despliegues (CI/CD), el monitoreo y las alertas. Asegura que el lago funcione de forma confiable en producción.
- Data scientists / analistas: Son los consumidores principales de los datos. Participan en la definición de los casos de uso y validan que los datos de la capa gold satisfagan sus necesidades de análisis y modelado.
Roadmap recomendado — evita el "big bang":
El error más costoso es intentar migrar todas las fuentes de datos, implementar todas las capas y cubrir todos los casos de uso en una sola fase. El enfoque recomendado es por fases iterativas:
- Fase 1 — MVP (meses 1-4): Selecciona 1-2 casos de uso de alto impacto y baja complejidad. Conecta 2-3 fuentes de datos prioritarias. Implementa las tres capas (bronze, silver, gold) para esos datasets específicos. Entrega un dashboard o modelo funcional que el negocio pueda usar. El objetivo: demostrar valor rápido.
- Fase 2 — Expansión (meses 5-8): Agrega más fuentes de datos y casos de uso. Implementa gobierno formal (catálogo, lineage, calidad). Refina los procesos de ingesta y transformación. Capacita a más usuarios.
- Fase 3 — Madurez (meses 9-12+): Habilita casos de uso avanzados (machine learning, streaming). Implementa automatización completa (DataOps). Optimiza costos. Establece SLAs de disponibilidad y frescura de datos.
Criterios de éxito medibles: Define desde el inicio cómo sabrás si el proyecto es exitoso. Ejemplos: "Los reportes que antes tomaban 3 días ahora se generan en minutos", "La tasa de error en datos de clientes bajó del 15% al 2%", "El equipo comercial tiene visibilidad diaria de inventario en vez de semanal". Sin métricas claras, el proyecto se convierte en una inversión difícil de justificar.
Recuerda: el change management es tan importante como la tecnología. Un Data Lake perfecto técnicamente pero que nadie usa es un fracaso. Involucra a los usuarios finales desde la fase de diseño, capacítalos y recoge su retroalimentación constantemente.
9. Glosario de términos
A lo largo de este artículo se mencionan muchos términos técnicos. Aquí los explicamos todos de forma simple para que nadie se quede con dudas:
- Datos estructurados: Datos organizados en tablas con filas y columnas, como una hoja de Excel o una base de datos SQL. Cada campo tiene un tipo definido (texto, número, fecha). Ejemplo: la tabla de clientes de tu CRM.
- Datos semi-estructurados: Datos que tienen cierta organización pero no encajan en una tabla rígida. Archivos JSON, XML o logs de servidores son ejemplos. Tienen etiquetas o claves, pero su estructura puede variar de un registro a otro.
- Datos no estructurados: Datos sin formato predefinido: imágenes, videos, PDFs, correos electrónicos, grabaciones de audio. Representan la mayoría del volumen de datos que genera una empresa, pero son los más difíciles de analizar.
- PII (Personally Identifiable Information): Datos que permiten identificar a una persona: nombre, correo electrónico, teléfono, CURP, RFC, dirección. Requieren protección especial por ley y por ética.
- Batch: Modo de procesamiento donde los datos se mueven o transforman en lotes programados (por ejemplo, cada noche a las 2 AM o cada hora). Es el más común y el más económico.
- Near real-time / Streaming: Modo de procesamiento donde los datos se capturan y procesan casi al instante, con latencias de segundos o pocos minutos. Necesario para casos como detección de fraude o monitoreo de inventario en tiempo real, pero más costoso y complejo.
- ETL (Extract, Transform, Load): Proceso tradicional donde los datos se extraen de la fuente, se transforman (limpian, formatean) y luego se cargan al destino. La transformación ocurre antes de almacenar.
- ELT (Extract, Load, Transform): Proceso moderno donde los datos se extraen y cargan al Data Lake tal cual, y la transformación ocurre después, dentro del lago. Permite conservar los datos originales y aprovechar la potencia de cómputo del lago.
- CDC (Change Data Capture): Técnica que detecta y captura solo los cambios (inserciones, actualizaciones, eliminaciones) en una base de datos, en vez de copiar toda la tabla. Como recibir solo las novedades en vez de releer todo el periódico cada día.
- Ingesta: El proceso de traer datos desde los sistemas fuente hacia el Data Lake. Puede ser batch, streaming o mediante CDC.
- Bronze / Silver / Gold (capas): Modelo de organización del Data Lake en tres niveles de madurez del dato. Bronze = crudo, Silver = limpio y estandarizado, Gold = listo para análisis. También se le llama arquitectura medallion.
- Parquet: Formato de archivo columnar optimizado para almacenar grandes volúmenes de datos. Ocupa menos espacio que CSV y permite consultas mucho más rápidas porque solo lee las columnas que necesitas.
- Delta Lake: Capa de software creada por Databricks que se coloca sobre archivos Parquet para agregar transacciones ACID, versionado y manejo de esquema. Convierte un Data Lake en un Lakehouse.
- Apache Iceberg: Similar a Delta Lake, es un formato de tabla abierto que agrega transacciones ACID y versionado sobre almacenamiento de objetos. Creado por Netflix, es agnóstico al motor de procesamiento.
- ACID: Acrónimo de Atomicidad, Consistencia, Aislamiento y Durabilidad. Son las cuatro garantías que aseguran que las operaciones con datos sean confiables: o se completan totalmente o no se completan, sin dejar datos a medias.
- Nube (cloud): Infraestructura de cómputo y almacenamiento proporcionada por un proveedor externo (AWS, Azure, GCP) a través de internet. No necesitas comprar servidores: rentas la capacidad que necesites.
- Híbrido: Modelo donde parte de la infraestructura está en la nube y parte en servidores propios (on-premise). Común en empresas con regulaciones estrictas o inversiones previas en hardware.
- Apache Spark: Motor de procesamiento distribuido que permite transformar grandes volúmenes de datos en paralelo, usando múltiples servidores al mismo tiempo. Es como tener una línea de producción con muchos trabajadores en vez de uno solo.
- Databricks: Plataforma unificada de datos e inteligencia artificial basada en Apache Spark. Ofrece un entorno gestionado para Data Engineering, Data Science y Machine Learning. Creadores de Delta Lake.
- Snowflake: Plataforma de datos en la nube que funciona como un Data Warehouse moderno con capacidades de Data Lake. Destaca por separar almacenamiento y cómputo, permitiendo escalar cada uno independientemente.
- Synapse (Azure Synapse Analytics): Servicio de Microsoft Azure que integra capacidades de Data Warehouse, procesamiento big data (Spark) y exploración de datos en un solo entorno. Ideal para empresas con ecosistema Microsoft.
- Data Warehouse: Repositorio de datos estructurados, organizados y optimizados para consultas analíticas y reportes. Solo acepta datos que cumplen un esquema predefinido. Piensa en una biblioteca perfectamente catalogada.
- Data Lake: Repositorio que almacena datos en cualquier formato (estructurado, semi-estructurado, no estructurado) a gran escala. Acepta todo sin exigir estructura previa. La bodega gigante de esta guía.
- Lakehouse: Arquitectura que combina la flexibilidad del Data Lake con las capacidades de consulta y gobierno del Data Warehouse. Lo mejor de ambos mundos.
- Data Swamp (pantano de datos): Un Data Lake que se dejó sin gobierno: datos sin documentar, sin dueños, sin calidad, donde nadie sabe qué hay ni confía en lo que encuentra. Es el resultado de construir sin gobernanza.
- Catálogo de datos: Inventario centralizado y buscable de todos los datasets, tablas y archivos disponibles en el Data Lake. Es como el catálogo de una biblioteca: te dice qué hay, dónde está y de qué trata.
- Data lineage (linaje de datos): Mapa que muestra el recorrido de un dato desde su origen hasta su destino final, incluyendo todas las transformaciones que sufrió en el camino. Permite rastrear errores y entender de dónde viene cada número.
- Data steward: Persona responsable de la calidad, integridad y cumplimiento de las políticas de datos dentro de un dominio específico. Es el "guardián" de los datos.
- Ownership (propiedad de datos): La asignación clara de un dueño de negocio para cada dataset. El owner decide qué datos se capturan, quién puede acceder y cuál es su propósito. Sin ownership, los datos se vuelven huérfanos.
- RBAC (Role-Based Access Control): Modelo de seguridad donde los permisos se asignan según el rol del usuario (analista, gerente, administrador). Si eres analista de ventas, ves datos de ventas; si eres de RH, ves datos de empleados.
- ABAC (Attribute-Based Access Control): Modelo de seguridad más granular que RBAC, donde los permisos dependen de atributos del usuario, del recurso y del contexto. Ejemplo: "Solo usuarios del departamento legal, ubicados en CDMX, durante horario laboral, pueden ver contratos confidenciales".
- SSO (Single Sign-On): Sistema que permite a un usuario acceder a múltiples aplicaciones con una sola autenticación. Inicias sesión una vez con tu cuenta corporativa y accedes al Data Lake, a los dashboards y a las herramientas sin volver a teclear tu contraseña.
- Enmascaramiento: Técnica que oculta datos sensibles reemplazándolos con valores ficticios pero realistas. El dato original sigue existiendo, pero los usuarios no autorizados ven una versión oculta. Ejemplo: el RFC "GARC850101ABC" se muestra como "G***850101***".
- Tokenización: Técnica que sustituye un dato sensible con un identificador único (token) que no tiene relación matemática con el dato original. Solo un sistema separado con la clave puede "devolver" el dato real. Más seguro que el enmascaramiento porque el dato original no está presente en absoluto.
- CapEx (Capital Expenditure): Gasto de capital, es decir, la inversión en activos físicos como servidores, licencias perpetuas o infraestructura propia. Se paga una vez (o en pocas cuotas) y se deprecia con el tiempo.
- OpEx (Operational Expenditure): Gasto operativo recurrente, como las suscripciones mensuales a servicios cloud, licencias SaaS o costos de soporte. Se paga mientras se use el servicio.
- TCO (Total Cost of Ownership): El costo total de propiedad de un sistema a lo largo de su vida útil, incluyendo no solo la tecnología sino también personal, capacitación, mantenimiento, soporte y costos ocultos. Es la cifra que realmente importa al comparar opciones.
- Egress: El costo que cobra un proveedor cloud por cada gigabyte de datos que sale de su infraestructura. Subir datos suele ser gratis, pero bajarlos o transferirlos a otra nube tiene costo. Un factor que muchas empresas descubren demasiado tarde.
- Data engineer: Profesional que diseña, construye y mantiene los pipelines de datos: los procesos automatizados que mueven datos desde las fuentes hasta el Data Lake y a través de las capas bronze, silver y gold.
- Data scientist: Profesional que utiliza estadística, programación y machine learning para extraer conocimiento y predicciones a partir de los datos. Es uno de los principales consumidores de los datos del lago.
- Arquitecto de datos: Profesional que diseña la estructura general del ecosistema de datos: qué tecnologías usar, cómo se relacionan los sistemas, cómo fluyen los datos y cómo escalar la arquitectura a futuro.
- DevOps / DataOps: DevOps aplica prácticas de automatización y colaboración al desarrollo de software. DataOps extiende esas prácticas al mundo de los datos: automatizar pruebas de calidad, despliegues de pipelines, monitoreo y alertas de la infraestructura de datos.
- MVP (Minimum Viable Product): La versión más simple de un producto o proyecto que permite validar si funciona y entrega valor real. En el contexto de un Data Lake, es implementar las tres capas para 1-2 casos de uso antes de expandir.
- SLA (Service Level Agreement): Acuerdo de nivel de servicio que define compromisos medibles, como "los datos del ERP estarán disponibles en el lago con un retraso máximo de 2 horas" o "la plataforma tendrá disponibilidad del 99.9%".
- Lock-in (dependencia de proveedor): Situación donde tu infraestructura depende tanto de un proveedor específico que migrar a otro resulta extremadamente costoso o complejo. Usar formatos abiertos (Parquet, Iceberg) y evitar servicios propietarios reduce el riesgo de lock-in.
- Change management (gestión del cambio): El conjunto de prácticas para preparar, apoyar y guiar a las personas en la adopción de nuevas herramientas, procesos o formas de trabajar. Un Data Lake perfecto que nadie usa porque no se gestionó el cambio es un fracaso.
- LFPDPPP: Ley Federal de Protección de Datos Personales en Posesión de los Particulares. Es la legislación mexicana que regula cómo las empresas deben recolectar, almacenar, usar y proteger datos personales. Obliga a tener avisos de privacidad, respetar derechos ARCO y notificar brechas de seguridad.
¿Necesitas ayuda con tu estrategia de datos?
Diseñar e implementar un Data Lake que realmente funcione requiere experiencia en arquitectura de datos, ingeniería y gobierno. En Databeans ayudamos a empresas a construir infraestructuras de datos sólidas, escalables y gobernadas —desde la definición de casos de uso hasta la puesta en producción. Si estás evaluando un proyecto de Data Lake o ya tienes uno que no está dando resultados, podemos ayudarte.