Skip to content

Projeto de Web Scraping e análise de dados (currículos lattes cadastrados no CNPQ) desenvolvido em Python

License

Notifications You must be signed in to change notification settings

Denise-Pro/Iniciacao-Cientifica-I

Repository files navigation

Iniciação Científica

Descrição do Projeto

Projeto de Web Scraping e análise de dados (currículos lattes cadastrados no CNPQ) desenvolvido em Python

Objetivo principal

Através desse código analisamos vários currículos lattes de pesquisadores que compõem os grupos de pesquisa da usp-leste, atribuímos pontuações a esses grupos com base em critérios pré-estabelecidos pela comissão de pesquisa e, essas pontuações servem para redistribuir de maneira mais justa os espaços disponíveis, na USP-leste, entre grupos de pesquisa, sendo que grupos com mais pontos tem prioridades em detrimento dos outros.

Status do Projeto:

Em desenvolvimento ⚠️

Sequência do Desenvolvimento

✔️ A princípio ja havia um programa em perl que extraía os lattes com formato xml (feito por um professor), do site do cnpq e os transformava para csv. Assim, a primeira etapa desse projeto foi pegar os dados dos pesquisadores em formato csv, fazer as devidas análises, atribuir as pontuações aos grupos de pesquisa e construir visualizações gráficas para apresentá-las.

✔️ Na segunda etapa, percebemos que não seriam possíveis concluir determinadas análises, pois alguns dados não estavam disponíveis nos lattes dos pesquisadores. Diante desse fato, contruímos um formulário no Google forms e distribuímos entre os grupos com perguntas que não podiam ser respondidas analisando apenas os currículos dos mesmos. Após obter as respostas via forms, eu construí um programa que extrai os dados via api deste forms. Usei a api do google Sheets para extrair os dados com formato xls.

✔️ A terceira etapa será refatorar o código, calcular medias as ponderadas e identificar outliers referentes as pontuações finais de cada grupo de pesquisa.

⚠️ A quarta e última etapa será extrair os currículos lattes diretamente da plataforma cnpq e analisá-los com o formato xml, sem precisar usar o programa secundário perl citado na primeira etapa. Toda a esrutura será mudada para atender o formato xml.

Resumo das Funcionalidades

🏆 Extrai dados com formato csv de arquivos que estão em diretórios locais

🏆 Extrai dados xls de Planilhas do Google (Google sheetes) via api

🏆 Blox-Plot -> Outliers

⚠️ web scraping e parser de dados com formato xml (em breve)

⚠️ Resume as análises em visualizações gráficas (em breve)

Desenvolvedores


Denise Proença


Ruanitto Docine

About

Projeto de Web Scraping e análise de dados (currículos lattes cadastrados no CNPQ) desenvolvido em Python

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published