Tasks travadas em diversas tenants

Description

Problema


  • A query abaixo lista tasks diferente de COMPLETED, CANCELED e FAILED. Restando principalmente tasks READY e RUNNING.
  • Dessas tasks, filtramos apenas tasks entre 48 horas atrás e 2 horas atrás, ignorando tasks executadas num raio de até duas horas atrás. A ideia é filtrar apenas tasks realmente travadas.
  • Eu fiz o cancelamento de diversas outras tasks manualmente para destravar, colocarei as imagens logo abaixo.
  • Normalmente tasks foram dealocadas pelo stale, mas não voltaram a serem executadas:

https://cloudlogging.app.goo.gl/XLhqav8gjCGNskH86

image-20241025-025146.png

SELECT task_type, task_status, count(*), min(start_date) minn, max(start_date) maxx, string_agg(distinct tenant_id, ', ')
FROM task
where start_date between (now() - interval '24 hour') and (now() - interval '2 hour')
and task_status not in ('COMPLETED', 'CANCELED', 'FAILED')
group by 1,2
limit 1000
BIGQUERY_PROCESS_DATA	READY	23	2024-10-24 12:00:51.663	2024-10-24 20:40:23.902	0268f1ac5a9148d8b810a1f244b0807b, 0f6f293f42b0441288149987a3300d0b, 158ee83a4c964aeab890bb8cf29a5952, 3795e870a2bf4bd6a47e57d6e1209390, 462f7662f76d4202978d7b0628dd6de4, 49323d55cd6d4a8cb7b0d06dfb32033c, 4de26716e8914d2d8079afd8315f02bf, 58202ffde60e4c4a9b2fb0849609401b, 5da864ed4dc54c02a601886a74a73843, 6289dea399f0425897acf74c1d8dc48e, 65393a7167404b388fa9a32aca8f73c2, 8fd5fd6d335a43c991bdd7406c06be26, 968f4b616a904cbda8b174992b82995a, ad3c433a629749dca2024e0238f8e0af, b15c97357e314fe293a0bccbb3471472, b6c0f286932b4067bb3442f727535cb3, ba15db44adb94888923b7a0756129ccd, c610826a09f746ff853ec6b25630bef2, c8b28daa17d1473fba0afe3e67d1f92a, cde513e927294544b8bb507a2e273e22, d2dc5e1440754f96afceb84072831134, fc99a0caabd541cab3e114dcce16224a
CAROL_PIPELINES_EXECUTION_SUMMARY	READY	2	2024-10-24 15:14:00.992	2024-10-24 17:55:16.690	85fd1a9caef74159841b67c9e994fa3c, ad9c7d099c7647d3b1095264ae8dc151
CREATE_TENANT	RUNNING	2	2024-10-24 19:38:34.055	2024-10-24 19:39:51.716	f4e4697e021d4f68b849fa4971607b80
DELETE_CDS_STAGING	RUNNING	2	2024-10-24 04:59:49.840	2024-10-24 05:01:00.430	27835e670bc047b8825ebd0206fde6d7, dd27edc09bb94755bc389a2c62bb4a9d
EXPORT_SEARCH_RESULT	RUNNING	2	2024-10-24 15:39:41.306	2024-10-24 16:42:45.707	e62a09d1e6ae4e9cab42be68d2a1006e
INSTALL_CAROL_APP	READY	1	2024-10-24 18:30:26.780	2024-10-24 18:30:26.780	c85667c3fc5940778f2d917127c40d8f
INSTALL_CAROL_APP	RUNNING	8	2024-10-24 12:32:47.205	2024-10-24 18:58:33.178	1140dffae18247a48db49659b9c20e30, 71db76289b894c9a824af9234ce3391e, 790f96fbade34a33a367e5b8606aceed, 7a4a3ad631704ebd8c3564f295963d02, 8d525ff3d9f04bf88260e8a0bd125996, 939c83ed98b647d4aa6615b0de77933f, 972c64d12f5849aba6affa1e71f932cf, c2b7529f93bf40bfb0c9df923520bc26

image-20241025-024926.png

Salvando o taskID:

SELECT task_type, task_status, count(*), min(start_date) minn, max(start_date) maxx, string_agg(distinct id::varchar, ', ')
FROM task
where start_date between (now() - interval '24 hour') and (now() - interval '2 hour')
and task_status not in ('COMPLETED', 'CANCELED', 'FAILED')
group by 1,2
limit 1000
BIGQUERY_PROCESS_DATA	READY	23	2024-10-24 12:00:51.663	2024-10-24 20:40:23.902	023d52db-b9b4-4056-b00d-5ea19fd734e8, 0b290d15-ca77-435f-8388-0dbf75c82abc, 1699aa6c-7578-45d2-be38-e8cf25ec2690, 272101ea-497c-4e00-a294-6da983f4154d, 374a01ee-cd24-41ce-81ee-bd5875820eca, 407f0005-3f3d-493b-9172-9cd7924da49b, 451d9065-a277-4f9f-a189-97d57ff2e13a, 486c1632-3dab-4b58-b781-2e50d365640b, 5d4c9077-2b2f-43bc-a33b-e908ad67a786, 6f0a8870-3dbe-4f49-8703-d3910a112b65, 7f31a7b1-c84e-491c-9091-206b015d5d54, 81f5d1f9-9a86-45b4-beac-0f55bae5f6d6, a9e51328-d970-4c90-a285-1e6a527a1992, aec969b4-f7ad-41ce-81db-f9b6ec55f25b, afb5830d-6892-4960-872c-efbb51f4df18, b2b35984-6c91-4e41-9613-a8b0ca88bb93, b43593a0-d14e-4580-a9fa-a1d0812b7603, c31ddfd8-0fb8-4114-86ff-e20fa3fdfec4, cc166475-ba57-45f5-b139-069748b19b65, d313afcb-2c24-4c89-ad4f-241aef3bfece, f9fc78c1-2f80-4f90-ae93-b5b63cba5828, fab0cfbb-62b8-4e56-95b3-a54e94d55710, fafca5ef-5fca-4f2b-82af-a2a5a7b02334
CAROL_PIPELINES_EXECUTION_SUMMARY	READY	2	2024-10-24 15:14:00.992	2024-10-24 17:55:16.690	778ea588-8ec0-40d9-af36-cbce6256b9d3, d98b5679-8973-4b61-963b-4ba01848130b
CREATE_TENANT	RUNNING	2	2024-10-24 19:38:34.055	2024-10-24 19:39:51.716	4c1b0e47-de4c-4ba6-a890-ae39229e9311, 6ced41f2-d50c-430e-a3f6-f282fc0c948c
DELETE_CDS_STAGING	RUNNING	2	2024-10-24 04:59:49.840	2024-10-24 05:01:00.430	3ba9fa07-2d86-4408-9597-0cce66bfad28, 4d203032-1cbf-4611-94aa-c24e830b8572
EXPORT_SEARCH_RESULT	RUNNING	2	2024-10-24 15:39:41.306	2024-10-24 16:42:45.707	be252fed-3bdd-47ae-8f6d-9cc57fcb7e72, f798ff63-3d52-4095-809d-abda8ec4670e
INSTALL_CAROL_APP	READY	1	2024-10-24 18:30:26.780	2024-10-24 18:30:26.780	5d7a0913-1e61-4cf5-9b41-7b30cf1c14c4
INSTALL_CAROL_APP	RUNNING	8	2024-10-24 12:32:47.205	2024-10-24 18:58:33.178	0a4af124-1be5-4e14-885e-ccb04de9ecd3, 193f882a-f4eb-467e-aba2-caafd2b7add4, 5230cb1e-e890-4963-b233-9dda4cc45570, 682d788b-c6f6-4b56-ae99-1ed7a8d1edf5, b2f3c30d-2c6c-45fe-b768-fb8880022f76, e0832fc9-6fba-4dc5-a6b3-996417afb9f2, e0f551b1-50a9-4e8c-ac43-e9d0f535e0d5, ff449b65-9b0c-4c0a-a75a-831194097c7a

Tasks canceladas manualmente


image-20241025-025240.png

image-20241025-025253.png

image-20241025-025304.png

image-20241025-025316.png

image-20241025-025324.png

Activity

Automation for Jira 30 October 2024, 12:02 Jira Internal Users

@Robson Thanael Poffo ,

@Geny Isam Hamud Herrera ,
Você acabou de concluir a issue https://jiraproducao.totvs.com.br/browse/IDEIA-919 no Jira Produção e seu comentário anterior foi adicionado como informação de encerramento. Issue TOTVS IDEIA também foi concluída.

MARCOS STUMPF 30 October 2024, 12:02

#close

  1. Problema/dúvida em questão (na perspectiva do desenvolvedor): Task de NSR estavam ficando travadas na fila.

  2. Causa raiz do problema (Caso não se aplique, informe "NA"): Foram detectadas 2 situações. 1. Eventos de observabilidade do Smarlink sem pipelineName e appName gerando exceptions inesperados, fazendo com que ficassem em looping na fila do NATS. Como efeito colateral, cada retentativa de consumo dessa fila de observabilidade no NATS ocupava threads e concorria uso de CPU com a execução das tasks. 2. task do tipo CONSOLIDATE_CDS_DATA ficou presa com o status RUNNING desde o dia 23/out, impactando as demais, devido ao fato de possuir uma enorme lista de arquivos .parquet na coluna secure_data, da tabela task do mdm.

  3. Solução dada ao tema/dúvida: Para a primeira situação o deploy do hotfix foi liberado na sexta-feira (25) próximo as 18h BRT. Já para a segunda situação o deploy do hotfix ocorreu na segunda-feira às 15h BRT.

  4. Orientações gerais para validação (Caso não se aplique, informe "NA"): NA

  5. Versão de correção e previsão de lançamento: (1) 25/10/2024 e (2) 28/10/2024.

Automation for Jira 28 October 2024, 20:41 Jira Internal Users

, sobre as tasks que continuavam em RUNNING ou QUEUE, após ação do Renan, há apenas uma de RECORD_TENANT_STATISTICS que segue sendo atualizada normalmente. Logo entendo não haver mais problemas.

Mensagem enviada pelo Slack - emergencias - Bruno Furtado

Automation for Jira 25 October 2024, 11:55 Jira Internal Users

Link para a thread da mensagem no Slack canal #emergencia