Provisionamento com migração de dados com impactos operacionais - Integration
Description
Problema
A issue DAEN-6177 descreve um incidente que tivemos em produção na tenant “backofficeinsightsunif“, tenant unificada, que teve o provisionamento do BigQuery executado pela task https://totvstechfindev.carol.ai/backofficeinsightsunif/carol-ui/tasks/activity/c63ea1c7-81c6-4e76-a111-83022beb3678?p=1&ps=25&filters=%5B%7B%22dateUpdated%22:%5B%22after%22,%222025-01-29T06:11:27.361Z%22%5D%7D,%7B%22hideInternal%22:%22true%22%7D%5D
Como resultado da task de provisionamento tivemos:
Task ficou em execução por aproximadamente 4 dias e 22 horas.
-
-
Task gerou vários erros conforme abaixo:
Error copying data from ingestion_ to new_ingestion_ tables
Erro observado no log da tas.
Could not find schema with spec
gs://prod-mdm-1-carol-internal-0483dfa91ba54cd4b97b1613f1171932/schema/1934a0399cd34351ab323de325376de3_sei/staging.jsonObservamos erro referente a um connectorID (f2d30dac68de4ff08108a9826f1b896a) que foi eliminado em 2024-09-06:
Durante a análise dos logs no stackdriver, eu observei mensagens informando eliminação da entidade:
-
Um total de 156 tabelas foram recriadas, bem no inicio da tas de provisionamento:
-
SELECT table_catalog, table_schema, table_name, creation_time,table_type FROM `carol-0483dfa91ba54cd4b97b.0483dfa91ba54cd4b97b1613f1171932.INFORMATION_SCHEMA.TABLES` where creation_time > '2025-01-23' and table_type = 'BASE TABLE' and starts_with(table_name, 'ingestion_stg_')
-
-
Tema debatido nessa thread do slack: https://totvsideia.slack.com/archives/C03LA7B048G/p1738077038570799
Critério de Aceite
Precisamos entender os motivos que as tabelas foram eliminadas e criadas novamente.
O que causou o travamento da task?
Porque um connectorID que não está mais em uso está sendo referenciado como connectorID inexistente?
Será respondido pelo BE na issue
CAPL-7238: Provisionamento com migração de dados com impactos operacionais - BackendTo do
Após entendimento do problema e inibição que ocorra novamente adicionar issue para BE para que o [re]provisionamento esteja liberado novamente.
Adendo ao tema:
Aumentar o limite de tasks copy data para:
Final de semana: 500
Durante a semana: 300
Tasks de copy data devem compreender data de inicio como sendo (data criação da task) menos 24 horas (24 horas antes da data de criação da task).