Erro ingestão: Error publishing records to NATS with PublishParam: Error executing search [Unable to parse response body] - 504 Gateway timeout

Description

01 - STAKEHOLDER (quem valida e esclarece):
02 - PROBLEMA (cenário e/ou dor):

Durante o trabalho de análise da subida de dados TCloud para a Carol realizada em 4 clientes da techfin nos deparamos com diversas falhas nos logs da GCP, que podem comprometer as metas de Zero Data Loss e Estabilização da Carol.

Análise consolidada de registros por tipo de causa - https://cloudlogging.app.goo.gl/3M4KpJUbYH8Yv3VPA


A partir da análise acima, ampliamos a consulta por logs em toda a plataforma Carol no período de 02 semanas (02 a 16 de abril)

Causas identificadas:

  • Erro interno do servidor que não conseguiu processar a request dentro do tempo esperado devido a um erro ao interpretar a resposta retornada pelo ES.

    • Indica que o corpo da resposta era inválido, vazio, ou não estava no formato esperado (JSON). possibleResponsibleField vazio indica aparentemente um problema na comunicação e não no conteúdo da requisição.

    • (500) Error executing search [Unable to parse response body. POST - caused by: 504 Gateway timeout

    •  ocorrências no período: 1

    • Possíveis causas:

      • Timeout no Gateway ou Load Balancer

      • Elasticsearch Indisponível ou Sobrecarregado

      • Erro na Resposta do Elasticsearch

      • Configuração Incorreta da Aplicação (URL, autenticação, credenciais, timeout baixo)

      • Problema na Rede no GKE (configuração, limite de recursos, balanceamento/roteamento interno)

      • Erro na Query de Busca (índice inexistente, parâmetros de busca sobrecarregando ES)

    • https://cloudlogging.app.goo.gl/CBbL3ARbiD4urih17

    • Stack Trace


03 - OBJETIVO (solução proposta):
04 - QUEM PODE USAR (perfis de usuários):
05 - ASSETS (links e arquivos relevantes):
06 - CRITÉRIOS DE ACEITE:

  • Retornar 500 caso o ES possua instabilidade durante o recebimento de dados.