Erro ingestão: Error publishing records to NATS with PublishParam: Error executing search [Unable to parse response body] - 504 Gateway timeout
Description
01 - STAKEHOLDER (quem valida e esclarece):
02 - PROBLEMA (cenário e/ou dor):
Durante o trabalho de análise da subida de dados TCloud para a Carol realizada em 4 clientes da techfin nos deparamos com diversas falhas nos logs da GCP, que podem comprometer as metas de Zero Data Loss e Estabilização da Carol.
Análise consolidada de registros por tipo de causa - https://cloudlogging.app.goo.gl/3M4KpJUbYH8Yv3VPA
A partir da análise acima, ampliamos a consulta por logs em toda a plataforma Carol no período de 02 semanas (02 a 16 de abril)
Causas identificadas:
-
Erro interno do servidor que não conseguiu processar a request dentro do tempo esperado devido a um erro ao interpretar a resposta retornada pelo ES.
-
Indica que o corpo da resposta era inválido, vazio, ou não estava no formato esperado (JSON). possibleResponsibleField vazio indica aparentemente um problema na comunicação e não no conteúdo da requisição.
-
(500) Error executing search [Unable to parse response body. POST - caused by: 504 Gateway timeout -
ocorrências no período:
1 -
Possíveis causas:
-
Timeout no Gateway ou Load Balancer
-
Elasticsearch Indisponível ou Sobrecarregado
-
Erro na Resposta do Elasticsearch
-
Configuração Incorreta da Aplicação (URL, autenticação, credenciais, timeout baixo)
-
Problema na Rede no GKE (configuração, limite de recursos, balanceamento/roteamento interno)
-
Erro na Query de Busca (índice inexistente, parâmetros de busca sobrecarregando ES)
-
-
Stack Trace
-
Problema tem relação com criação de novo campo (nested/object) em staging flexível e problemas no parsing
-
-
-
-
Envio de valores vazios para a staging (código 406)
-
caused by: No data sent to staging -
ocorrências no período:
3 -
Possíveis causas:
-
Payload enviado sem registros
-
-
03 - OBJETIVO (solução proposta):
04 - QUEM PODE USAR (perfis de usuários):
05 - ASSETS (links e arquivos relevantes):
06 - CRITÉRIOS DE ACEITE:
-
Retornar 500 caso o ES possua instabilidade durante o recebimento de dados.