Schedule tasks não limpam o BigQuery

Description

PRDE - Bug default text according to the team DoR (Definition of Ready)

01 - PERSON OF CONTACT (PERSON THAT CAN ANSWER QUESTIONS ABOUT THE PROBLEM):

@Breno Zipoli Monteiro Papa
02 - PROBLEM (WHAT'S THE ISSUE?):

Schedule tasks de uma pipeline não limpam o big query do datamodel pois estão referenciando jobs da task original, que já foram concluídos, fazendo com que um novo não seja criado e o datamodel siga com dados mesmo a task possuindo Should clean BigQuery first = True

03 - STEPS TO REPRODUCE (STEP (1...N), VIDEO, SCREENSHOTS, LOGS FOLDER, HEARTBEAT, ETC. – IF IS NOT POSSIBLE TO REPRODUCE EXPLAIN THE REASON):

Reproduzível agendando qualquer task SQL Process criada via VS Code e que tenha Should clean BigQuery first = True. Não foram testadas tasks agendadas provenientes de checkout de pipelines do unificado.

Detalhamento:

Task original criada pelo VS Code: https://daen.carol.ai/brenotests/carol-ui/tasks/activity/f7a27033d79a4f4eabc82badd2c01400

A mesma gerou 1 registro para o datamodel.

10/10/2023 04:12:22.547 PM: Number of records processed: 1, size: 0.23 kb

Resultado no datamodel:

Task agendada:

Execução da task agendada criada (execução iniciada pela plataforma): https://daen.carol.ai/brenotests/carol-ui/tasks/activity/5995b113e631402da459b479a3470d45

A mesma gerou 1 registro para o datamodel.

10/10/2023 04:18:47.308 PM: Number of records processed: 1, size: 0.23 kb

Como Clear BigQuery estava marcado, deveriamos ter apenas 1 registro no datamodel, o que não foi o caso:

Execução da task agendada criada (execução iniciada por usuário): https://daen.carol.ai/brenotests/carol-ui/tasks/activity/309a79fe8ff44a939c17010c772a6087

A mesma gerou 1 registro para o datamodel.

10/10/2023 04:41:37.176 PM: Number of records processed: 1, size: 0.23 kb

Como Clear BigQuery estava marcado, deveriamos ter apenas 1 registro no datamodel, o que não foi o caso:

Um detalhe importante é que a primeira task (criada pelo VS Code) gerou o seguinte log:

Clear job finished with the status: DONE

Cleaning BigQuery table... Project: carol-234061fafb784fe98c2d, dataset: 234061fafb784fe98c2d711f45e3ce7f, job ID: d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04

O job do big query criado foi este: carol-234061fafb784fe98c2d:US.d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04 , criado em Oct 10, 2023, 3:50:08 PM UTC-3 e finalizado em Oct 10, 2023, 4:11:12 PM UTC-3.

As tasks agendadas consultaram o mesmo job id, fazendo com que a limpeza não fosse feita, pois o job já tinha finalizado:

10/10/2023 04:17:37.251 PM: Clear job finished with the status: DONE

10/10/2023 04:17:36.898 PM: Clear Job d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04 is still running, waiting for it...

10/10/2023 04:34:12.412 PM: Clear job finished with the status: DONE

10/10/2023 04:34:12.191 PM: Clear Job d5f35dd4-1cfa-4cbc-aaa4-dc3eeabcbf04 is still running, waiting for it...

Mas, como a referencia é um job id que já terminou, rapidamente temos o log de DONE.

04 - LINKS (ADD A LINK TO THE BUG OR TO THE TENANT):
05 - EXPECTED BEHAVIOR (LIST THE EXPECTED BEHAVIORS TO CONSIDER THIS BUG AS DONE):

Task agendada ter o mesmo comportamento que a task original, apagando a tabela do big query antes de processar. Deve criar outro job id de limpeza mesmo em tasks agendadas.