Author: Prof. Barbosa
Contact: infobarbosa@gmail.com
Github: infobarbosa
Este curso tem como objetivo proporcionar uma revisão das operações mais básicas com Spark DataFrames, abordando desde a manipulação inicial até técnicas avançadas. Serão explorados tópicos como criação e uso de UDFs (User Defined Functions), manipulação de estruturas complexas como arrays e structs, realização de junções e agregações, além de operações de pivot e unpivot. Também serão cobertos conceitos de rollups e cubes, funções de janela (window functions) e o uso do Spark SQL para consultas avançadas. Ao final, você estará apto a aplicar essas técnicas em cenários reais de engenharia de dados.
Este curso foi desenvolvido para execução principalmente em ambiente Linux.
Caso você não tenha um à disposição então recomendo utilizar o AWS Cloud9.
As instruções de criação estão aqui.