Projeto de Web Scraping e análise de dados (currículos lattes cadastrados no CNPQ) desenvolvido em Python
Através desse código analisamos vários currículos lattes de pesquisadores que compõem os grupos de pesquisa da usp-leste, atribuímos pontuações a esses grupos com base em critérios pré-estabelecidos pela comissão de pesquisa e, essas pontuações servem para redistribuir de maneira mais justa os espaços disponíveis, na USP-leste, entre grupos de pesquisa, sendo que grupos com mais pontos tem prioridades em detrimento dos outros.
Em desenvolvimento
✔️ A princípio ja havia um programa em perl que extraía os lattes com formato xml (feito por um professor), do site do cnpq e os transformava para csv. Assim, a primeira etapa desse projeto foi pegar os dados dos pesquisadores em formato csv, fazer as devidas análises, atribuir as pontuações aos grupos de pesquisa e construir visualizações gráficas para apresentá-las.
✔️ Na segunda etapa, percebemos que não seriam possíveis concluir determinadas análises, pois alguns dados não estavam disponíveis nos lattes dos pesquisadores. Diante desse fato, contruímos um formulário no Google forms e distribuímos entre os grupos com perguntas que não podiam ser respondidas analisando apenas os currículos dos mesmos. Após obter as respostas via forms, eu construí um programa que extrai os dados via api deste forms. Usei a api do google Sheets para extrair os dados com formato xls.
✔️ A terceira etapa será refatorar o código, calcular medias as ponderadas e identificar outliers referentes as pontuações finais de cada grupo de pesquisa.
🏆 Extrai dados com formato csv de arquivos que estão em diretórios locais
🏆 Extrai dados xls de Planilhas do Google (Google sheetes) via api
🏆 Blox-Plot -> Outliers