[Alerts] System alert triggered despite normal operation after prod upgrade

Description

Production: v2.0.76-6

EU ID: EAAG3881


Summary:
Unexpected system alert on VMAX A1 G4 upon initial login after production upgrade. This morning, an alert was triggered on the VMAX A1 G4 system indicating that the system was not responding. To investigate, I accessed the local monitor directly connected to the recorder. The system appeared to be online and functioning normally.

After interacting with the local UI, the alert was automatically cleared by the system.

System log for DW-VA1G416

recorder id : {bae34150-99ff-dc69-e676-3ac79b7b5988}

Attachments

Upload attachments

Drop your files to upload

(Max file size: 1.00 GiB)

Uploading...
(Template) Current File Name (1 / 7) 123KB / 2.1MB
(Template) File Name 123KB / 2.1MB
Upload completed. Click here to reload the page.

Child issues

Linked work items

Activity

FOCUS_JH 26 June 2025, 00:19

일단 SET 수량을 더 늘려 에이징 확인해 보겠습니다.

Brandon Krebs 25 June 2025, 16:42

@Paul S. Kim(CC: @FOCUS_JH @Greg(Sungwon) Kim ) I would like to clarify exactly what happened at 8:12:16 AM on June 23. I performed the following checks:

  1. Opened the Pathfinder page to confirm that the connection was still active.

  2. Visited the myDW registration page to verify that the device was still registered.

  3. Closed the menu afterward.

No changes were made during this process. If you check the time when myDW system closed the alert automatically, it was at 8:12:20 AM. Before I closed the menu at 8:12:28 AM.

Paul S. Kim 25 June 2025, 00:22

@FOCUS_JH 네, 감사합니다. Product 서버의 해당 Org에 정팀장님(jhjung@focushns.com)을 초대했습니다. Web Link를 통해 접근 가능하리라 봅니다. Brandon에게 Setup 내용을 문의하겠습니다. Agent가 업데이트 서버로 부터 Download 한 거 봐선 네트워크 문제는 없는 듯 합니다. 썸네일 Timeout 포함해서 Agent가 왜 재시동 안 되었는지 확인이 필요해 보입니다.

Paul S. Kim 25 June 2025, 00:12

@Brandon Krebs (CC: @FOCUS_JH @Greg(Sungwon) Kim) Hi Brandon, do you remember what settings you had on this DVR on 6/23 08:12AM?

FOCUS_JH 24 June 2025, 06:36

일단 저희쪽에서 정상적으로 에이징 걸고 있는 여러대 SET에서는 해당 증상을 찾을수 없었고,

DVR 쪽 로그를 보고 말씀드리자면, DW Spectrum 에 해당 DVR RTSP 16 ch 연결된 상태로 보이는데..

6월 23일 오전 8시 12분경 Local 에서 어떤 설정을 했었는지 확인이 필요해 보입니다.

6월 23일 오전 8시 12분 이전에는 로그가 전혀 없어서 판단이 안서지만, 네트워크가 단절되었다가 다시 연결된것이 아닌가 추측 해봅니다.

thumbnail rule 설정 API(http://127.0.0.1:8027/ec2/thumbnailRuleList)가 지속적인 timeout 에러 건은 제가 확인할수 있는 방법이 없는것 같습니다..일단 저희쪽 등록된 에이징 장비들의 CVV Thumbnail 이미지는 업데이트 잘 되는것 같습니다.

*연구소에 해당 내용 공유하겠습니다.

Paul S. Kim 24 June 2025, 04:50

@FOCUS_JH VMAX A1 G4는 정상 동작되고 있는데, Agent가 동작하지 않아 myDW에서 Offline으로 관리된 상황이 있어 공유합니다.
장래학 팀장님과 공유 부탁드립니다.

dw.agent가 update 등의 이유로 process가 terminate되면 펌웨어가 몇 초 이내로 재시작해 주는데, (정확히는 dw.agent를 실행시키는 dw.agent.sh를 다시 실행). 이와 관련하여 미국의 A1 G4 (16ch) 장비에서 이상 현상이 발견되었습니다.
아래 로그에서 미국 현지 시간 기준으로 2025-06-22 21:58:12에 agent가 auto update를 위해 terminate되었는데,

그 이후로 쭉 agent가 실행된 기록이 없고 다음날 오전 8시 경이 되어서야 agent가 실행되었습니다.

이 시간 동안 agent가 실행되고 있지 않아 어떠한 데이터도 업로드 되지 않았기 때문에 myDW에서는 이 시간 동안 recorder not responding alert가 발생하였습니다. 그렇지만 장비에서 video record 기록을 보면 위 시간 동안에도 recorder 자체는 동작을 하고 있었습니다.
관련이 있을지는 모르겠는데, agent가 실행된 시간(23일 오전 8시 12분)에 사용자가 system setup 활동을 한 기록이 있습니다. 혹시 이 때 비로소 trigger 되어 agent를 실행시킨 것은 아닌지 고려할 수 있을 것 같습니다.

*dw.agent 로그 파일 첨부합니다.

또 다른 이슈로 아래 로그에서와 같이 해당 장비 펌웨어 측에서  thumbnail rule 설정 API(http://127.0.0.1:8027/ec2/thumbnailRuleList)가 지속적으로 timeout 에러가 발생하고 있습니다.
이에 대한 확인도 부탁드립니다.

Paul S. Kim 24 June 2025, 00:12

@KY Park PROD 서버에 EAAG3881 ORG가 있는데, 팀장님이 Admin으로 등록되어 있습니다. 아래 두 이메일 좀 초대 부탁드립니다.
dw_tracker@proton.me
swkim@digital-watchdog.com
@Greg(Sungwon) Kim 일단 로그 확인 좀 부탁드립니다.