Schedule tasks não limpam o BigQuery
Description
PRDE - Bug default text according to the team DoR (Definition of Ready)
01 - PERSON OF CONTACT (PERSON THAT CAN ANSWER QUESTIONS ABOUT THE PROBLEM):
@Breno Zipoli Monteiro Papa
02 - PROBLEM (WHAT'S THE ISSUE?):
Schedule tasks de uma pipeline não limpam o big query do datamodel pois estão referenciando jobs da task original, que já foram concluídos, fazendo com que um novo não seja criado e o datamodel siga com dados mesmo a task possuindo Should clean BigQuery first = True
03 - STEPS TO REPRODUCE (STEP (1...N), VIDEO, SCREENSHOTS, LOGS FOLDER, HEARTBEAT, ETC. – IF IS NOT POSSIBLE TO REPRODUCE EXPLAIN THE REASON):
Reproduzível agendando qualquer task SQL Process criada via VS Code e que tenha Should clean BigQuery first = True.
Não foram testadas tasks agendadas provenientes de checkout de pipelines do unificado.
Detalhamento:
Task original criada pelo VS Code: https://daen.carol.ai/brenotests/carol-ui/tasks/activity/f7a27033d79a4f4eabc82badd2c01400
A mesma gerou 1 registro para o datamodel.
10/10/2023 04:12:22.547 PM: Number of records processed: 1, size: 0.23 kb
Resultado no datamodel:
Task agendada:
Execução da task agendada criada (execução iniciada pela plataforma): https://daen.carol.ai/brenotests/carol-ui/tasks/activity/5995b113e631402da459b479a3470d45
A mesma gerou 1 registro para o datamodel.
10/10/2023 04:18:47.308 PM: Number of records processed: 1, size: 0.23 kb
Como Clear BigQuery estava marcado, deveriamos ter apenas 1 registro no datamodel, o que não foi o caso:
Execução da task agendada criada (execução iniciada por usuário): https://daen.carol.ai/brenotests/carol-ui/tasks/activity/309a79fe8ff44a939c17010c772a6087
A mesma gerou 1 registro para o datamodel.
10/10/2023 04:41:37.176 PM: Number of records processed: 1, size: 0.23 kb
Como Clear BigQuery estava marcado, deveriamos ter apenas 1 registro no datamodel, o que não foi o caso:
Um detalhe importante é que a primeira task (criada pelo VS Code) gerou o seguinte log:
Clear job finished with the status: DONE
Cleaning BigQuery table... Project: carol-234061fafb784fe98c2d, dataset: 234061fafb784fe98c2d711f45e3ce7f, job ID: d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04
O job do big query criado foi este: carol-234061fafb784fe98c2d:US.d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04
, criado em Oct 10, 2023, 3:50:08 PM UTC-3 e finalizado em Oct 10, 2023, 4:11:12 PM UTC-3.
As tasks agendadas consultaram o mesmo job id, fazendo com que a limpeza não fosse feita, pois o job já tinha finalizado:
10/10/2023 04:17:37.251 PM: Clear job finished with the status: DONE
10/10/2023 04:17:36.898 PM: Clear Job d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04 is still running, waiting for it...
10/10/2023 04:34:12.412 PM: Clear job finished with the status: DONE
10/10/2023 04:34:12.191 PM: Clear Job d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04 is still running, waiting for it...
Mas, como a referencia é um job id que já terminou, rapidamente temos o log de DONE.
04 - LINKS (ADD A LINK TO THE BUG OR TO THE TENANT):
05 - EXPECTED BEHAVIOR (LIST THE EXPECTED BEHAVIORS TO CONSIDER THIS BUG AS DONE):
Task agendada ter o mesmo comportamento que a task original, apagando a tabela do big query antes de processar. Deve criar outro job id de limpeza mesmo em tasks agendadas.