Hoy tuve la oportunidad de participar como integrante del comité de expertos en la presentación de los proyectos finales del curso MDSC3S141-1 Big Data y Cloud Computing, impartido por el Dr. Luis Castillo Faune en el Magíster en Data Science de la Universidad del Desarrollo (UDD).
Fue especialmente grato reencontrarme con este mismo grupo de estudiantes, quienes hace algunos meses presentaron sus proyectos del curso de
Deep Learning. En esa oportunidad, el foco estuvo en el desarrollo y evaluación de modelos de aprendizaje profundo para resolver problemas reales. Quienes tengan interés pueden revisar esa experiencia en la entrada
Presentaciones de proyectos: aplicaciones reales de Deep Learning.
En esta ocasión, el énfasis fue diferente. Más que en el desarrollo de modelos analíticos, las presentaciones estuvieron centradas en el diseño de plataformas modernas de datos, considerando aspectos de ingesta, procesamiento distribuido, arquitecturas Lakehouse, gobernanza, seguridad y despliegue en la nube.
Uno de los aspectos más interesantes de la jornada fue observar cómo los equipos justificaban sus decisiones arquitectónicas para resolver problemas de negocio reales. Más allá de la implementación técnica, la discusión se centró en la escalabilidad de las soluciones, la mantenibilidad de los pipelines, la calidad de los datos y los mecanismos de gobernanza necesarios para operar plataformas analíticas en ambientes productivos.
El Grupo 1 presentó una Plataforma Big Data para analítica omnicanal en retail, cuyo objetivo fue integrar información proveniente de cuatro silos de datos para habilitar procesos analíticos con tiempos de respuesta de segundos. La propuesta se basó en una arquitectura Medallion sobre Google Cloud Platform, utilizando Delta Lake sobre Apache Parquet y Cloud Composer para la orquestación de procesos. Durante la evaluación discutimos decisiones arquitectónicas como la frecuencia de ejecución de los procesos batch, el impacto de una falla en el pipeline nocturno y los mecanismos de recuperación ante errores, además de aspectos relacionados con la gobernanza activa de los datos. El equipo estuvo integrado por Claudio Ballerini, Juan José Torres, Cristian Vargas y Christian Vásquez.
El Grupo 2 presentó una Plataforma Analítica de Rentabilidad para Aerolíneas, basada en una arquitectura Lakehouse sobre Google Cloud Platform utilizando el enfoque Medallion. El proyecto incorporó componentes orientados a la predicción de riesgo operacional y justificó la elección de un procesamiento batch frente a una arquitectura streaming, considerando los requerimientos del caso de negocio. El equipo estuvo conformado por Camila Figueroa Muñoz, Diego Morales Valenzuela y María Vásquez Tapia.
El Grupo 3 presentó un Pipeline Serverless para Detección de Fraude, orientado a la identificación de transacciones potencialmente fraudulentas en tiempo real. La solución procesa un histórico de aproximadamente 15 millones de registros y un flujo incremental cercano a 2 millones de transacciones diarias, utilizando una arquitectura serverless basada en el enfoque Medallion (Bronze, Silver y Gold). Como caso de estudio, el equipo implementó una heurística para detectar usuarios con más de 12 transacciones diarias, incorporando además requisitos propios de una plataforma moderna de datos, como propiedades ACID, enmascaramiento de información sensible y consultas SQL interactivas. A diferencia de los proyectos anteriores, esta propuesta fue implementada sobre Amazon Web Services (AWS), lo que permitió comparar distintas alternativas para el despliegue de arquitecturas de datos en la nube. El equipo estuvo integrado por Adrián Espinoza y Ricardo Castro.
El Grupo 4 presentó Gestión Territorial Inteligente: Arquitectura Big Data para Solicitudes Ciudadanas en la Municipalidad de El Monte. La propuesta estuvo basada en un patrón analítico Lakehouse Medallion con procesamiento batch incremental, utilizando archivos Parquet con compresión Snappy para optimizar el almacenamiento y las operaciones de lectura. El procesamiento se desarrolló mediante PySpark, aprovechando el paralelismo para enfrentar escenarios de mayor escala. Uno de los aspectos más interesantes fue la discusión sobre una arquitectura desacoplada, donde el almacenamiento y el motor de procesamiento evolucionan de manera independiente, permitiendo escalar capacidad y costos según las necesidades de la solución. Además, el diseño fue concebido para ser reproducible en un entorno local y preparado para un despliegue nativo sobre Google Cloud Platform. El equipo estuvo integrado por Dante Aguirre, Osvaldo Neira, Sofía Alanís y Jaime Sandoval.
Una de las conclusiones más interesantes de la jornada fue comprobar que no existe una única arquitectura correcta para resolver un problema de datos. Los equipos tomaron decisiones distintas respecto al uso de procesamiento batch o streaming, la elección del proveedor de nube, la organización de los datos mediante arquitecturas Lakehouse y la incorporación de mecanismos de seguridad y gobernanza. Lo relevante fue que cada una de estas decisiones estuviera respaldada por argumentos técnicos y alineada con las necesidades del problema que buscaban resolver.
Al comparar estas presentaciones con las realizadas anteriormente en el curso de Deep Learning, resulta evidente la evolución del programa. Si en aquella instancia el foco estaba en la selección y evaluación de modelos de aprendizaje automático, en esta oportunidad el desafío consistió en diseñar la infraestructura que permitirá llevar esos modelos a entornos productivos, considerando aspectos como escalabilidad, mantenibilidad, seguridad y gobernanza de los datos.
Quiero felicitar al Dr. Luis Castillo Faune por el trabajo realizado durante el semestre y a todos los estudiantes por el nivel de sus proyectos y las discusiones técnicas generadas durante la jornada. Haber compartido con este mismo grupo tanto en el curso de Deep Learning como ahora en Big Data y Cloud Computing permitió apreciar cómo el énfasis pasó desde el desarrollo de modelos hacia el diseño de plataformas de datos capaces de soportarlos en escenarios reales. Este tipo de instancias demuestra que el diseño de estas plataformas va mucho más allá de seleccionar tecnologías: implica comprender los requerimientos del negocio, fundamentar las decisiones de arquitectura y construir soluciones que puedan evolucionar de manera segura, escalable y mantenible.