As bases de dados para estimar sub-notificações do COVID-19, por Fernando Barbalho

Pesquisadores, jornalistas, gestores e profissionais de saúde pública e curiosos dispõem de um amplo conjunto de bases de dados onde se pode inferir a subnotificação de COVID

Photo by LOGAN WEAVER

As bases de dados para estimar sub-notificações do COVID-19

por Fernando Barbalho

Já é possível perceber a disseminação do debate sobre as subnotificações de casos de COVID-19. O interesse pelo tema deixa seus rastros no Google. A figura logo abaixo, por exemplo, mostra a curva de tendência no google trends para a palavra subnotificação.

Compare com essa outra figura com a curva de tendência da palavra COVID.

Como se pode ver as curvas tem praticamente a mesma forma destacando-se principalmente o início de Março como o ponto em que ambas começam a crescer. O que está por trás desse interesse é o fato que pode estar havendo muitos mais casos de infecção e óbitos por corona vírus do que está sendo divulgado nos boletins semanais.

Então, qual estratégia seguir para se conseguir medir essas subnotificações? A mais cogitada é a comparação de internação e óbitos por doenças respiratórias entre os dados oficiais deste ano com o de anos anteriores. E é aí que tudo volta a ficar complicado. São várias as bases de dados, construídas para fins diversos, com granularidade e variáveis diferentes entre si e cortes temporais distintos. Algumas vezes há até divergências entre as variáveis que deveriam se ajustar entre as bases de dados. Vale então entender as bases de dados disponíveis, o que se pode extrair delas, o grau de abertura dos dados e até mesmo conhecer as iniciativas não-governamentais que estão ajudando a amplificar o reúso dessas bases.

DATASUS — SIM

A primeira base de dados que pode ser destacada é a relacionada ao sistema SIM do Datasus. É focada em estatística de óbitos, rica em variáveis e possui uma série temporal relativamente longa, começando em 1979. Seria a base de dados ideal para as análises de sub-notificações não fosse a restrição de que trabalha com uma defasagem de dois anos.

Os dados estão disponíveis no portal de download de dados do Datasus. Um problema relacionado à abertura de dados é que não há uma API que auxilie na baixa de dados que tratem combinação de vários períodos e de várias Unidades da Federação.

É sobre essa base que construí o painel de Óbitos de Doenças respiratórias, Foi a resposta a uma boa provocação do professor Miguel Nicolelis que queria medir a subnotificação a partir de comparações de séries temporais de óbitos por doenças respiratórias. No painel é possível fazer acompanhamento da série temporal entre 2014 e 2018 de todas as doenças respiratórias para qualquer combinação de todas UFs brasileiras. Com isso pode-se checar principalmente efeitos de sazonalidade e identificar parâmetros de extremos esperados para o total de óbitos para as doenças que se queriam analisar com mais detalhe.

O aplicativo pode ser acessado a partir deste link. A figura abaixo traz uma visão de um dos principais gráficos do painel.

Os dados já tratados e os códigos relacionados ao painel estão disponíveis nesse repositório do Github. Vale lembrar que pelo painel o usuário pode fazer download dos dados que respondem a critérios de filtros aplicados.

Infogripe — Fiocruz

Uma segunda base que está sendo bastante citada é a que é utilizada pela Fiocruz no painel que monitora os casos reportados de síndrome respiratória aguda grave (SRAG). Os dados mais acompanhados são os de hospitalização, apesar de haver também uma base de óbitos, porém restrita aos casos de influenza. O painel é muito interessante para quem quer acompanhar e comparar as semanas epidemiológicas. Os dados começam em 2009 e são atualizados semanalmente. Há nesse caso dados que já apontam para o período da pandemia.

A grande desvantagem desse painel é a dificuldade em baixar os dados. Há necessidade de uma raspagem. Aqui novamente temos o benefício de uma comunidade de dados abertos atuante que já fez alguns experimento. Vale destacar essa iniciativa do Adriano Belisario de divulgar no seu github um script de raspagem e também as bases de dados já raspadas do InfoGripe.

Marcus Nunes já fez uso desse script e montou uma análise de possíveis subnotificações. Veja a figura como ficou.

Ainda sobre o painel do Infogripe, vale destacar que a base de dados divulgada sobre óbitos por influenza aparentemente não concilia com os dados de óbitos por essa categoria de doença respiratória apresentados no SIM. Aparentemente a falta de conciliação entre sistema SINAN, de onde os dados do Infogripe são extraídos, e o SIM é coisa antiga. Fiz uma thread no twitter em que relato um achado dessa inconsistência, bem como outros problemas de bases de dados de saúde pública.

Dados de cartório

Outra base que vem fazendo sucesso ultimamente é a que está associada ao painel que a ARPEN Brasil disponibilizou em que se compara os óbitos registrados em cartório referentes a insuficiência respiratória e pneumonia. Os dados são de 2019 e 2020 e o propósito declarado da ARPEN é justamente oferecer uma possibilidade de checagem de eventuais sub-notificações de óbitos por COVID-19.

Uma limitação importante da base de cartórios é o fato de não haver separação entre os casos confirmados e suspeitos de COVID-19. Acrescente-se a isso a indisponibilidade de opções de download. Decididamente não há dados abertos para esses registros. Novamente a opção que resta é a raspagem de dados e mais uma vez a comunidade de dados abertos foi lá atuar.

Aqui o trabalho a ser destacado é do Álvaro Justen e seu Brasil.io. Nesse link encontra-se um painel onde pode-se fazer filtros com resultados em forma de tabela. Há ainda a opção de download de csv e até mesmo link para o script de raspagem. Veja abaixo uma figura que ilustra o painel.

SIVEP-Gripe

A mais nova base de dados que apareceu em minhas mãos é a do SIVEP-Gripe. Veio de uma dica da jornalista Amanda Rossi. Ela me passou o link de uma resposta a um pedido de acesso a dados que está disponível na internet.

Os dados disponibilizados respondem ao pedido de informação, portanto estão bem restritos no que diz respeito à série temporal. Os dados vão de janeiro de 2018 a 19 de setembro de 2019. Fiz o download dos dados e um primeiro tratamento da tabela. Os dados e o script de tratamento estão disponíveis nesse github.

O que é interessante nessa base é o grande número de variáveis. São 82 colunas onde se pode investigar informações relacionadas a por exemplo: sintomas, condições de risco do paciente, vacinas, exames feitos, além dos já tradicionais, UF e idade do paciente.

Em tempo: eu já havia publicado a primeira versão deste texto quando o Belisário me alertou que o Infogripe utiliza-se da base do SIVEP-Gripe em seu painel. Optei aqui em continuar com a separação das duas bases já que a SIVEP-Gripe não está aberta e a forma de consumir parte dos seus dados é através do Infogripe.

Concluindo

Como se vê os pesquisadores, jornalistas, gestores e profissionais de saúde pública e curiosos dispõem de um amplo conjunto de bases de dados onde se pode inferir a subnotificação de COVID. Dadas as limitações que cada base apresenta isoladamente, o mais provável é que as análises sejam feitas com combinação desses dados. Recomenda-se assim cautela com as análises e principalmente na confecção de textos que mostrem os resultados. Para esses textos vale muito destacar os links para as fontes de dados e as limitações dos achados.

Redação

1 Comentário

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

  1. “Não tenho ideia do que me espera, ou do que acontecerá quando tudo isso acabar. No momento eu sei disso: há pessoas doentes e elas precisam de cura”.

    Albert Camus, A Peste

Você pode fazer o Jornal GGN ser cada vez melhor.

Apoie e faça parte desta caminhada para que ele se torne um veículo cada vez mais respeitado e forte.

Seja um apoiador