Data Engineer - Híbrido (Madrid)
Responder al anuncioDesde Sandav Consultores estamos en búsqueda de un Data Engineer para cliente ubicado en Madrid (zona de Arganzuela) con modalidad híbrida de trabajo (un mes se trabajará 2 días de manera presencial y 3 días de teletrabajo a la semana) y otro mes 100% remoto. Y así sucesivamente meses alternos. Responsabilidades:Desarrollo de Modelado de Datos y Pipelines con Spark y Scala para ingesta y transformación de datos de diferentes fuentes (temas de Kafka, API, HDFS, bases de datos estructuradas, archivos) en HDFS, IBM Cloud Storage (generalmente en formato parquet) o bases de datos SQL/NOSQL. Gestionar soluciones de almacenamiento de big data en la plataforma (HDFS, IBM Cloud Storage, estructurado y bases de datos no estructuradas). Transformación y Calidad de Datos: implementar transformación de datos y control de calidad de procesos para garantizar la coherencia y precisión de los datos. Utilizar lenguajes de programación como Scala y SQL, y bibliotecas como Spark para operaciones de enriquecimiento y transformación de datos. Implementación de canales de CI/CD: configurar canales de CI/CD para automatizar la implementación, pruebas unitarias y gestión del desarrollo. Migración de infraestructura: migrar la infraestructura de Hadoop existente a la infraestructura de nube en Kubernetes Engine, Object Storage (almacenamiento en la nube de IBM), Spark como servicio en Scala (para construir las canalizaciones de datos) y Airflow como servicio (para orquestar y programar las tuberías de datos). Implementación de esquemas, consultas y vistas en bases de datos SQL/NoSQL como Oracle, Postgres o MongoDB. Desarrollar y configurar la programación de canalizaciones de datos con una combinación de scripts de shell y AirFlow como servicio. Pruebas de validación: realizar pruebas unitarias y de validación para garantizar la precisión y la integridad. Documentación: redactar documentación técnica (especificaciones, documentos operativos) para asegurar la capitalización del conocimiento. Requisitos mínimos:Spark en Scala como lenguaje de desarrollo de canalización de datos. Spark como servicio en Scala como plataforma de desarrollo de canales de datos. Experiencia en el diseño y desarrollo de procesos de streaming utilizando Spark Streaming. Transmisión de estructura Spark y Apache Kafka. Gestión de soluciones heredadas de almacenamiento de big data (HDFS). Gestión de soluciones de almacenamiento de big data (IBM Cloud Object Storage y formato parquet). Implementación de esquemas, consultas y vistas de bases de datos SQL/NoSQL (MongoDB, Oracle, Postgres). Shell scripting y Airflow como solución de programación de canalización de datos. Dremio como herramienta de virtualización de datos. Dataiku como herramienta de preparación de datos como bonificación. Inglés nivel alto (B2-C1). Requisitos deseados:Se valora positivamente si se tiene Francés. #J-18808-Ljbffr
¡Sea el primero en responder a este anuncio de trabajo!
-
¿Por qué está buscando trabajo en Trabajas.es?
Crear alerta de empleo
Cada día nuevos anuncios de trabajo Puede elegir entre una amplia gama de trabajos: nuestro objetivo es ofrecer una selección lo más amplia posible Déjenos enviar nuevos anuncios por correo electrónico Sea el primero en responder a las nuevas ofertas de empleo Todos los anuncios de trabajos en un único lugar (de empleadores, agencias y otros portales) Todos los servicios para demandantes de empleo son gratuitos Le ayudaremos a encontrar un nuevo empleo