Search Results

Found 49 repositories(showing 30)

ETL-pipeline-using-Airflow-and-AWS-EMR

khushal2405

❤️45

We Build an ETL pipeline using Airflow that accomplishes the following: Downloads data from an AWS S3 bucket, Runs a Spark/Spark SQL job on the downloaded data producing a cleaned-up dataset of delivery deadline missing orders and then Upload the cleaned-up dataset back to the same S3 bucket in a folder primed for higher level analytics

Python

Updated 2 months ago

airflowapache-sparkaws+9

ETL-pipeline-using-Airflow-and-AWS-EMR

ris3abh

❤️35

Python

Updated 1 year ago

job-market-analytics-pipeline

crussedev9

🧡50

End-to-end ETL pipeline for job market analytics showcasing Python, SQL, dimensional modeling, and Power BI integration

MIT

Python

Updated 2 months ago

analyticsbusiness-intelligencedata-enfineering+9

aws-glue-etl-airline-data-pipeline

Bayzid03

❤️35

Automated ETL pipeline using AWS Glue and Step Functions to process, enrich, and load airline flight delay data into Redshift for analytics and reporting. Includes crawler orchestration, schema transformation, and SNS-based job monitoring.

Python

Updated 4 months ago

football-data-pipeline

shakiroye

🧡55

A GCP-based ETL pipeline that fetches football data from Football-Data.org, stores raw JSON in Cloud Storage, transforms it, loads analytics tables into BigQuery, and powers a Looker Studio dashboard via scheduled Cloud Run jobs.

Python

Updated 2 weeks ago

bigquerycloud-runcloud-scheduler+8

financial-datawarehouse-aws

Arvind1997

❤️35

AWS-powered pipeline loads stock data (AAPL, AMZN, BRKA, FB, GOOG, JNJ, MA, MSFT, V, WMT) to S3, Glue for crawling, Athena for querying. Python scripts handle ETL, storing cleaned data in S3. Glue ETL job transfers to Redshift for advanced analytics, ensuring seamless storage, processing, and visualization.

Jupyter Notebook

Updated 2 years ago

Supply-Chain-Pipeline-Engineering-Pyspark-Visualisation

chiaoya

🧡65

A PySpark supply chain pipeline for product demand analytics: data cleaning, monthly/summary aggregation, JDBC read-write, and visualization. Includes src ETL jobs/transforms/utils, configs YAML setup, notebooks exploration, output datasets, and tests coverage. Ideal for reliable demand insights and revenue tracking.

Jupyter Notebook

Updated 5 days ago

zero-to-data-engineer

karkakasadara-tharavu

❤️40

💼 Complete career transformation path: BE Graduate → Data Engineer ($65K-$130K). Master SQL Server administration, T-SQL programming, SSIS ETL pipelines, Power BI analytics. 593KB content, 75+ files, AdventureWorks databases. Learn database design, normalization, backup strategies, security, CDC, dimensional modeling. Job-ready in 5 months.

MIT

TSQL

Updated 3 months ago

Engenheiro-de-Dados-S-nior-na-Lett

Robrtha

❤️20

DESCRIÇÃO DA VAGA Buscamos engenheiros de dados que se motivem com tecnologia de ponta e um ambiente com com muita autonomia para testar coisas novas. Somos um time que está sempre se reinventando para arquitetar soluções para para processar, armazenar e prover dados cada vez mais relevantes para todos os nossos produtos e também para nossos clientes. Você participará de um time que estará arquitetando sistemas distribuídos, criando pipelines escaláveis e confiáveis, combinando múltiplas fontes de dados e pensando em arquiteturas de dados escaláveis e otimizando recursos pensando na eficiência da nossa infra. Nossa tecnologia suporta as maiores marcas e varejos do mercado a tomarem decisões estratégicas sobre suas vendas no canal digital - e-commerce - e ajudam a aproximá-los das dos shoppers em campanhas em redes sociais. Responsabilidades: Conhecer e interagir com as diferentes áreas da Lett com o objetivo de ter um conhecimento amplo do negócio e das bases de dados; Desenvolver e implantar arquiteturas e processos que suportem as soluções das demais equipes de forma escalável; Governar, documentar e prover acesso a metadados a todas as equipes; Modelar Data Lakes e Data Warehouse; Pesquisar e trazer abordagens e tecnologias modernas para as soluções de Big Data da empresa; Criar e gerenciar data flows, clusters de processamento e armazenamento de dados em nossa cloud; Propor melhorias, otimizações de baixo nível e novas arquiteturas para os outros times; Democratizar o acesso a dados utilizando ferramentas e desenvolvimento de interfaces (como APIs, ETLs, SQL); e trabalhar diretamente com equipes de produto. REQUISITOS DA VAGA Requisitos: Experiência com Python; Experiência com Docker e docker-compose; Estar muito confortável com ambiente Spark (Pyspark no serviço EMR da AWS ou em Kubernetes); AWS (Elastic Beanstalk, SQS, RDS, Lambda Functions, EC2, EMR, S3, SNS); Vasta experiência com Data Lakes em storage de objetos (AWS S3); Vasta experiência com Google Big Query (modelagem de dados, ELTs, manutenção e governança); Experiência com o conceito de ELT; Experiência com governança e catalogação de dados; Apache Airflow (Implementação de DAGs e deploys do Airflow em formato de workers distribuídos); Data warehouses, data lakes, suas interfaces (engines SQL, processos de ETL, acesso direto a objetos) e sua organização ( particionamento, formas de orientar dados, custo e performance); Estar confortável com SQL, bancos de dados relacionais, bancos orientados a documento e armazenamento de arquivo; Arquiteturas diversas de processamento (filas, jobs, workers, functions... etc); Ferramentas de deploy, versionamento de código e infraestrutura na nuvem; Ser capaz de criar fluxos de execução paralela ou concorrente de processamento, assim como execução distribuída quando aplicável; Saber interagir de forma técnica e não-técnica com outros membros da equipe e com pessoas de outras áreas. Diferenciais: Dremio/Athena/AWS Glue Catalog; Ferramenta DBT (Data Build Tool da Fishtown Analytics); Amundsen; Processos de dados envolvendo CDC (Change Data Capture); Terraform; Prometheus/Grafana; Kubernetes/AWS ECS/AWS EKS; PostgreSQL, MongoDB, ElasticSearch, DynamoDB; Java/Scala; Jenkins; Inglês. BENEFÍCIOS DA VAGA Plano de Saúde; Plano Odontológico; VR; VA; Home Office.

Updated 4 years ago

Job_Analytics_ETL_Pipeline

deekshithgadi1203

❤️35

This ETL pipeline performs job analytics by extracting LinkedIn job postings using the Apify API.

Python

Updated 10 months ago

cryptojobs-pipeline

ghrjeon

🧡65

ETL pipeline serving Crypto Jobs Analytics

Python

Updated 5 days ago

real-time-job-analytics-using-kafka-etl-pipelines

DiiNguyennn

❤️25

No description available

Jupyter Notebook

Updated 7 months ago

job-market-analysis

tejokiran48-afk

🧡55

ETL pipeline + job market analytics dashboard using Python and Streamlit .

Python

Updated 1 week ago

HR-Analytics_ETL

hoangbui93

❤️35

ETL pipeline for HR Analytics – Job Change of Data Scientists

Python

Updated 11 months ago

Wuzzuf-Job-Market-Analysis

ahmedtarek-mel

🧡65

Real-time Job Market Analytics Dashboard using Python, Streamlit, and Automated ETL pipelines.

Python

Updated 19 hours ago

Wuzzuf-Job-Market

hazemtarek-mel

🧡65

Real-time Job Market Analytics Dashboard using Python, Streamlit, and Automated ETL pipelines.

Python

Updated 19 hours ago

job-market-analytics-api

abreu-joao

💛70

Automated ETL pipeline and RESTful API for up-to-date tech job market analytics.

MIT

Python

Updated 4 days ago

job_navigator

ProTos027

❤️40

A ETL pipeline built to transform messy job data into data ready for advanced analytics

MIT

Python

Updated 6 months ago

well-sparkitected

leonmwandiringa

❤️35

well architected ETL Jobs pipeline, data lake, etl and analytics. s3, glue crawler, glue catalog, spark, pyspark, python, docker, kubernetes, eks, cloudwatch

HCL

Updated 3 years ago

End-to-End-Data-Engineering-job-listings-etl

kirtishrestha

❤️35

Airflow ETL pipeline to ingest, transform, stage (Postgres) and warehouse (Snowflake) job-listings data for analytics and reporting.

Python

Updated 6 months ago

job_market_analytics

nguyentunhu

❤️40

An end-to-end ETL pipeline that aggregates job descriptions from 3 job platforms, extracts key skills, and produces analytics-ready visualizations.

Python

Updated 1 month ago

job-market-analytics

abhinav2105

🧡55

End-to-end job market analytics pipeline — scraping, ETL, data warehouse (Snowflake), dbt, Prefect orchestration, and Streamlit dashboard

Python

Updated 1 week ago

uk-data-jobs-intelligence

SohaliChandra

🧡55

End-to-end data pipeline analyzing UK data engineering job trends using Adzuna API, Python ETL pipelines, SQL analytics, and Streamlit dashboard.

Python

Updated 3 weeks ago

imdb-data-engineering-platform

Madhusudhangupta

❤️40

End-to-end IMDb data engineering platform with ETL pipelines, AWS Glue jobs, SQL analytics, and data quality checks

Python

Updated 2 months ago

e2e-etl-pipeline

tarnowsky

🧡50

End-to-end ETL pipeline that scrapes job offers from multiple job boards, processes and models the data, and prepares analytics-ready datasets for data engineering practice

MIT

Python

Updated 1 month ago

remote-jobs-data-scraper

Lautarocuello98

🧡60

Python ETL pipeline that scrapes remote jobs from the RemoteOK API, cleans the dataset, and exports analytics-ready files (CSV, Excel, JSON).

MIT

Python

Updated 2 weeks ago

api-scrapingdata-cleaningdata-engineering+5

AWS-ETL-pipeline-main

Mohit0135

❤️35

A lightweight ETL pipeline built with Python, AWS (S3, Redshift), and cron jobs to automate data ingestion, transformation, and loading for analytics.

Python

Updated 7 months ago

data-engineering-portfolio

JamieChristian22

❤️30

Job-ready data engineering portfolio showcasing real-world pipelines, ETL workflows, data modeling, cloud data architecture, SQL, Python, snowflake and analytics engineering projects.

Python

Updated 2 months ago

analytics-engineeringawsazure+16

job-data-pipeline

yago-novaes

🧡55

An end-to-end ETL pipeline to extract, transform, and analyze Analytics and Data Engineering job postings using Python, dbt, DuckDB, and Kubernetes.

Python

Updated 3 weeks ago

remote-job-trends-analytics

raunaqkoppikar

❤️40

Cloud-based ETL pipeline and analytics dashboard for tracking global remote job trends using the Remote OK API, Neon Postgres, and Google Data Studio.

MIT

Python

Updated 7 months ago

GitHub Explorer

Search Results

ETL-pipeline-using-Airflow-and-AWS-EMR

ETL-pipeline-using-Airflow-and-AWS-EMR

job-market-analytics-pipeline

aws-glue-etl-airline-data-pipeline

football-data-pipeline

financial-datawarehouse-aws

Supply-Chain-Pipeline-Engineering-Pyspark-Visualisation

zero-to-data-engineer

Engenheiro-de-Dados-S-nior-na-Lett

Job_Analytics_ETL_Pipeline

cryptojobs-pipeline

real-time-job-analytics-using-kafka-etl-pipelines

job-market-analysis

HR-Analytics_ETL

Wuzzuf-Job-Market-Analysis

Wuzzuf-Job-Market

job-market-analytics-api

job_navigator

well-sparkitected

End-to-End-Data-Engineering-job-listings-etl

job_market_analytics

job-market-analytics

uk-data-jobs-intelligence

imdb-data-engineering-platform

e2e-etl-pipeline

remote-jobs-data-scraper

AWS-ETL-pipeline-main

data-engineering-portfolio

job-data-pipeline

remote-job-trends-analytics

ETL-pipeline-using-Airflow-and-AWS-EMR

ETL-pipeline-using-Airflow-and-AWS-EMR

job-market-analytics-pipeline

aws-glue-etl-airline-data-pipeline

football-data-pipeline

financial-datawarehouse-aws

Supply-Chain-Pipeline-Engineering-Pyspark-Visualisation

zero-to-data-engineer

Engenheiro-de-Dados-S-nior-na-Lett

Job_Analytics_ETL_Pipeline

cryptojobs-pipeline

real-time-job-analytics-using-kafka-etl-pipelines

job-market-analysis

HR-Analytics_ETL

Wuzzuf-Job-Market-Analysis

Wuzzuf-Job-Market

job-market-analytics-api

job_navigator

well-sparkitected

End-to-End-Data-Engineering-job-listings-etl

job_market_analytics

job-market-analytics

uk-data-jobs-intelligence

imdb-data-engineering-platform

e2e-etl-pipeline

remote-jobs-data-scraper

AWS-ETL-pipeline-main

data-engineering-portfolio

job-data-pipeline

remote-job-trends-analytics