Você usa IA para coletar dados? Cuidado!

Nos últimos meses, o uso de IA para corroborar a veracidade de alguma informação ou solicitado dados quantitativos aumentou de forma impressionante em mídias sociais – o que pode parecer bom, mas é preocupante, como vou mostrar com exemplos reais. 🧵

1. Hoje fui confrontado com um post que é bem ilustrativo: um usuário pediu ao Grok (a IA do X) para plotar uma série histórica de internações por infarto agudo do miocárdio no Brasil e a resposta foi esta abaixo:

2. Já acendeu meu alerta laranja: este salto em 2019 não fazia sentido, não é assim que dados de internações costumam progredir (em tempos normais).

3. Acompanhando o gráfico, o Grok colocou a ressalva abaixo. Isto foi ainda mais estranho, porque a justificativa (dados exatos não fornecidos) não confere com a realidade. O Sistema de Informações Hospitalares do DataSUS fornece os dados mensais desde 2008!

4. Caso duvide que os dados de 2024 e 2025 estejam realmente disponíveis, basta olhar no link do SIH:
Veja no link:
tabnet.datasus.gov.br/cgi/deftohtm.e…

5. Decidi plotar os dados reais (baixados do SIH/DataSUS, em azul) em cima do gráfico do Grok e vejam só o resultado:

6. Sim, apenas os anos de 2019 e 2020 conferem. Assim, temos o seguinte:

– dos 9 pontos de dados plotados pelo Grok, 7 estão incorretos (!!!)

– a justificativa usada para estimar os anos anteriores (“dados não disponíveis”) é falsa

– para os anos de 2021 a 2023, o Grok usou uma estimativa (sem explicitar isto), sendo que havia dados reais
– os anos de 2024 e 2025, que segundo o Grok não teriam dados disponíveis, estão, sim, disponíveis no SIH.

7. Por curiosidade, decidi eu mesmo pedir para o Grok me apresentar os números. Vejam que ele fez uma salada, puxando números e fazendo estimativas de diversas fontes – é ÓBVIO que não dá para esperar uma série consistente e confiável com este método caótico.

8. Coincidentemente também hoje outro usuário quis medir a cobertura vacinal na faixa etária de 5 a 11 anos solicitando a alguma IA qual o tamanho da população nesta faixa. A resposta:

9. No entanto, ao consultarmos o Sidra/IBGE, na tabela 9514 temos o seguintes números (referentes ao Censo de 2022): mais de 19 milhões de crianças.
sidra.ibge.gov.br/Tabela/9514

10. Aparentemente, as IAs (por enquanto) não conseguem extrair dados que estão acessíveis via uma API ou um painel, apenas os que já estão disponíveis no próprio texto do site (me corrijam se eu estiver errado)

11. Minha leitura: as pessoas tendem a confiar mais em IA que em quaisquer fontes tradicionais, mesmo as primárias – e de forma incondicional. Isto é um erro grave.

12. Fica a lição: por enquanto, Grok e outras IAs, quando usados para data scraping, tem fornecido dados bem pouco confiáveis e justificativas que não condizem com os fatos. IA deveria ser usada como muleta, jamais como perna.

13. Deixem de preguiça e auditem os dados SEMPRE. Acredito que, com o passar do tempo, a confiabilidade da extração dos dados via IA venha a melhorar, mas neste momento simplesmente não dá para deixar apenas na mão dela.

Post Views: 426

4 Comments

Lara Máximo

Posted 27/05/2025 at 8:17 am

Que post NECESSÁRIO! A IA aprendeu a inventar uma resposta igual os humanos com lábia fazem kkkkkkkkkkk seria muito melhor se a IA dissesse que não conseguiu pegar os dados do que se inventasse uma mentira.

0Likes Responder
Marcelo

Posted 27/05/2025 at 6:17 pm

Fez um comparativo entre os dados fornecidos pelo Grok e outras IAs?
Me parece que o Grok alucina bem mais que o Gpt por exemplo.

0Likes Responder
- Post Author
  
  Franklin Weise
  
  Posted 28/05/2025 at 8:44 am
  
  Olá, Marcelo, ainda não. Neste caso específico, usei exemplos do Grok pois estavam dentro de postagens do X (Twitter) – é uma ferramenta mais cômoda nesta mídia social.
  
  0Likes Responder
Trackback: Dicas para uso de IA – DesvenDados