You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
A Imprensa Nacional instalou um bot manager da Cloudflare. Isto está dificultando muito a extração por meio da API de consulta.
No entanto, existe uma solução disponibilizada pela própria Imprensa Nacional é o INLabs. Ele disponibiliza os arquivos em ZIP+XML. A data de alteração do arquivo não é confiável, pois muda de 30 em 30 minutos, contudo, em testes preliminares, percebi que os arquivos não são alterados de fato.
A solução de busca no XML seria opcional, mediante configuração no arquivo YAML.
A busca no XML conseguiria resolver alguns comportamentos indesejados do RO-DOU, a saber:
O Ro-dou identifica a assinatura dos documentos para excluir os termos procurados do campo assinatura. Para fazê-lo ele se usa de um resultado da busca, que retorna o nome do assinante no começo do resultado da busca. Ocasionalmente a assinatura não aparece no começo do resultado da busca e essa regra não funciona. Em uma análise preliminar não-exaustiva, identificamos que no arquivo XML existe uma tag
antes da assinatura. Se esse padrão se repetir poderemos utilizá-lo para identificar a assinatura.
Já sabemos que a API não encontra caracaters Ä, Ü se a busca contiver os caracteres A ou U, ou vice-versa. Isto é, a busca não é completamente ACCENT INSENSITIVE. Na busca com XML poderemos encontrar esses registros.
Os servidores que possuem nomes curtos, frequentemente dão falsos positivos com nomes que contém o nome curto. Por exemplo: MARCELO DE LIMA é encontrado no nome MARCELO DE LIMA E SOUZA. No XML, podemos tentar identificar essas ocasiões, analistando o CASE de um eventual sobrenome ou prenome que seja acrescentado ao nome.
Além disso a busca XML diminuiria drásticamente o número de requisições e certamente será muito mais rápida do que busca na API, uma a uma.
Há o risco: não temos garantia de que o INLabs continuará funcionando. Também nunca validamos se a base de XML é 100% completa e correta.
The text was updated successfully, but these errors were encountered:
A Imprensa Nacional instalou um bot manager da Cloudflare. Isto está dificultando muito a extração por meio da API de consulta.
No entanto, existe uma solução disponibilizada pela própria Imprensa Nacional é o INLabs. Ele disponibiliza os arquivos em ZIP+XML. A data de alteração do arquivo não é confiável, pois muda de 30 em 30 minutos, contudo, em testes preliminares, percebi que os arquivos não são alterados de fato.
A solução de busca no XML seria opcional, mediante configuração no arquivo YAML.
A busca no XML conseguiria resolver alguns comportamentos indesejados do RO-DOU, a saber:
antes da assinatura. Se esse padrão se repetir poderemos utilizá-lo para identificar a assinatura.
Além disso a busca XML diminuiria drásticamente o número de requisições e certamente será muito mais rápida do que busca na API, uma a uma.
Há o risco: não temos garantia de que o INLabs continuará funcionando. Também nunca validamos se a base de XML é 100% completa e correta.
The text was updated successfully, but these errors were encountered: