Skip to content

Neste projeto será realizado o processo de EDA (Exploratory Data Analysis) a partir do dataset Data Science Salaries 2024, que pode ser encontrado no Kaggle, com licensa Database: Open Database e enviado por Sazidul Islam.

Notifications You must be signed in to change notification settings

datalopes1/ds_salaries2024_eda

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

💽EDA - Data Science Salaries 2024

Neste projeto será realizado o processo de EDA (Exploratory Data Analysis) a partir do dataset Data Science Salaries 2024, que pode ser encontrado no Kaggle, com licensa Database: Open Database e enviado por Sazidul Islam.

🛠️ Ferramentas utilizadas

Python Jupyter Notebook

1.1. Os dados, o problema e os objetivos

Como pessoa em transição de carreira é muito importante ter noção do novo ambiente corporativo que me aguarda, do que vou enfrentar no começo, e onde posso chegar encarando essa jornada. Outro passo importante é entender os próximos passos após chegar ao meu primeiro emprego na área de dados, onde vou virar meu foco de estudos, entrei nesta jornada após ouvir muito sobre Data Science e Machine Learninig mas ao iniciar meus estudos e correr atrás de entender esse universo vi que existem várias outras posições. Este conjunto de dados abrange uma grande coleção de dados sobre salários na área de Data Science, no período de tempo entre 2020 e 2024, os dados incluem vários aspectos relacionados a salário, proporcionando uma visão multifacetada da carreira.

Os dados foram coletados do ai-jobs.net.

Estrutura do dataset

Coluna Descrição
job_title O título da vaga ou posição associada ao salário registrado.
experience_level Nível de experiência da pessoa que ocupa a vaga.
employment_type Indica o regime de trabalho, se a vaga é integral, meio-período, etc.
work_models Indica se o modelo de trabalho é presencial, híbrido ou remoto.
work_year Específica o ano de trabalho.
employee_residence O local onde o trabalhador reside.
salary O salário registrado para vaga.
salary_currency A moeda em que o salário foi registrado.
salary_in_usd Salário em doláres.
company_location Localização da empresa contratante.
company_size Tamanho da empresa contratante.

Objetivos

Então meus objetivos com essa Análise Exploratória de Dado são:

  • Buscar conhecer mais posições dentro da área, e como são remuneradas;
  • Entender se empresas maiores valorizam mais os profissionais de dados;
  • Compreender se os layoffs estão afetando a evolução dos salários ao longo do tempo;
  • Onde estão localizadas as companhias que mais contratam;

1.2. Importação das bibliotecas e carregamento dos dados

A bibliotecas utilizadas foram o pandas, numpy, datetime, os, matplotlib, seaborn, plotly e warnings.

🧱2. Entendendo os dados

2.1. Estrutura do dataframe

Aqui busquei através do métodos shape, head(), tail(), e info() para entender a estrutura dos dados.

2.2. Breves conclusões antes de partir para os próximos passos

  • O dataframe parece limpo e bem cuidado, possivelmente não terá nulos e duplicatas;
  • Existem muitas posições dentro da área de Data Science, muitas funções de engenharia e outras um pouco vagas enquanto ao propósito;
  • Vejo a necessidade de criar uma coluna de especialidade ou expertise, para ter melhor entendimento na análise;
  • Alguns preenchimentos de employee_residence contém estados dos EUA, será necessário mudar para a localidade do país;

🧹3. Limpeza e manipulação dos dados

3.1. Verificação de nulos e duplicados

Verificação através dos métodos isna() e duplicated().

3.2. Manipulação dos dados e colunas

Foram feitos os processos de consertar preenchimentos e criar a coluna 'expertise'

🔍4. EDA ou Análise Exploratória de dados

Quais as top 10 posições com mais profissionais contratados?

Graph1 Ultimamente tenho tido mais contato com a área de engenharia de dados, e é interessante ver que nela existem muitas vagas. Ver o alto número de contratados como analista de dados também é animador.

Quais especialidades tem mais profissionais contratados?

Graph2 Ao fazer minha classficação pensei em dividir nessas três categorias com o critério de Data Science pegar vagas que exigiriam maiores hard skills, englobando AI, Machine Learning e posições de Engenharia e Arquitetura de dados. Análise de Dados e BI são áreas que muitas vezes se misturam ou se sobrepõem mas acho interessante separar as duas nesta análise.

Qual a distribuição de vagas por nível de experiência?

Graph3 O nível de experiência com mais vagas ocupadas é o Senior, seguido pelo nível Pleno. Esse desbalanceamento no número de vagas (quase o dobro de seniores em relação a plenos, e o triplo de plenos em relação aos entry-level ou junior) acredito que com o passar do tempo irá forçar o aumento das vagas Júnior.

Qual a distribuição dos modelos de trabalho?

Graph4 Pós pandemia de COVID-19 as vagas de trabalho presenciais já são maioria, como imaginava. Mas as vagas remotas ainda são uma parcela bastante relevante, apesar de eu ter em mente que vagas híbridas teriam mais vagas preenchidas.

Quais países tem mais profissionais de dados contratados (Top 10)?

Graph5 Graph6

Onde estão localizadas as companhias?

Graph7 Graph8 Os EUA são o país onde estão localizadas algumas das maiores empresas de tecnologia do mundo, em 2023 mais de 70 delas estavam localizadas em solo norte-americano, então é natural que estive no topo do ranking. O Canadá é outro país onde são sedidas diversas companhias de tecnologia e é conhecido por um alto fluxo de migratorio por empregos neste setor, o restante das empresas está sediada em grande parte na Europa.

Companhias grandes são as que mais contratam profissionais de dados?

Graph9

Como estão distribuidos os salários no período analisado?

Graph10 Existe um desbalanceamento dos dados, o que indica existem de dados extremos ou outliers. Vamos utilizar também um boxplot para visualizar de maneira mais clara estes valores.

Graph11

Como os salários em dados vem evoluindo neste período?

Graph12 Houve uma grande explosão de salários entre o fim de 2021 e o começo de 2022, e esse crescimento continua estável até o ano presente. Essa é uma notícia animadora para o futuro, o único momento de queda (e mesmo assim leve) nos salários foi no período de pandemia.

Como estão evoluindo os salários por especialidade?

Graph13

O número de vagas remotas vem diminuindo?

Graph14 2023 foi um ano com muitas vagas na área de Data Science no site de onde estamos retirando os dados, e com 2024 apenas no começo acho que o recorte de tempo mostra uma tendência do contínuo crescimento de vagas remotas e em dados em geral (vagas presenciais em 2024 já quase superam o total de 2022), apesar da prevalência de vagas presenciais.

Como é a progressão dos salários de acordo com o nível de carreira?

Graph15 Graph16 Graph17 As posições relacionadas a AI (Inteligência Artifical) são as mais bem remuneradas dentro do mercado. Mesmo profissionais de entry-level tem oportunidades com alta remuneração. Mas ainda sim, maioria das ofertas estão entre mid e senior-level. Executivos costumam ser o mais bem remunerados dentro das empresas, mas no último gráfico vimos uma pequena excessão quando se trata de arquiteto de AI.

Como o tamanho da empresa afeta o salário?

Graph18 Graph19 Empresas médias além de contratar, também são as que tem maior média salarial para profissionais de dados.

✅5. Conclusões

Imagem1 Planejar e tomar decisões sempre medindo todos os passos para o processo ter o rendimento mais eficaz e eficiente foi a base da minha formação academica, como Engenheiro de Produção, buscar formas, maneiras e ferramentas para melhorar os processos sempre me interessaram. Ao progredir para supervisor de vendas durante minha carreira como corretor de imóveis, analisar o desempenho dos colegas e dos produtos na incorporadora estimularam ainda mais minha mente a um pensamento guiado por dados. Em 2022 quando tive a oportunidade de poder retomar e concluir minha graduação após a pandemia de COVID-19, a área de dados parecia como uma escolha cristalina do meu próximo passo de transição para uma nova carreira. Saber onde estou pisando ainda sim é importante, e ver que a progressão de carreira tem amplas opções de caminhos para seguir é muito animador.

Alguns insights

  • O site que serviu de base para os dados é norte-americano que também é onde estão sediadas maioria das grandes empresas de tecnologia, então naturalmente maioria das vagas vão estar localizadas neste país mas existe uma grande diversidade de localizações para trabalhar de forma remota, como diversos países europeus o que é interessante. A Índia é outro páis que emprega muitos profissionais e tem uma tradição de formar excelentes programadores.
  • O trabalho remoto ainda tem uma quantidade significante de vagas ofertadas, e com tantas empresas sediadas nos Estados Unidos e Europa ter fluência em inglês é um grande diferencial para carreira.
  • Apesar da pandemia e dos layoffs os salários continuam crescendo, muito por conta das posições que tratam de AI, existe uma tendência de queda próxima a uma estabilização dos salários dos analistas, a partir da observação deste conjunto de dados.
  • A grande diferença entre as ofertas de vagas Senior, Mid e Entry-level indica a necessidade de entrada de mais profissionais no mercado ao longo do tempo e do avanço de carreira dos profissionais alocados.
  • Empresas de porte médio são onde se encontram maioria das vagas e melhores salários, isso é uma surpresa para mim. Mas um sinal de onde devo procurar aplicar por vagas.
  • Vagas de engenharia e arquitetura de dados remuneram bem e são áreas que devo buscar entender um pouco melhor, e são boas opções para me especializar no futuro.

About

Neste projeto será realizado o processo de EDA (Exploratory Data Analysis) a partir do dataset Data Science Salaries 2024, que pode ser encontrado no Kaggle, com licensa Database: Open Database e enviado por Sazidul Islam.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published