STT, Text 유사도 관련 리서치

Description

STT

  • 모델 크기가 크므로 STT를 프론트 웹에 당연히 넣을수는 없음

  • Web Speech API는 구글의 서버로 요청을 보냄

    • Web Speech API 호환이 완벽하지 않으므로 Whisper 쓰는 것은 당위성이 있음

    • Web API 라서 개발자 도구에서 로그 볼 수는 없음

    • chrome://net-export/
      https://netlog-viewer.appspot.com/#quic
      같은 도구 이용해서 뜯어볼 수는 있는데 저는 봐도 잘 모르겠어요

    • QUIC(HTTP/3) 기반으로 돌아가는 것 같습니다.

    • Q. Whisper 아무리 최적화 한다고해도 GPU 빨 심하게 받을텐데 댕글한테 허락받는거 가능한가요?

      • A. tiny 정도 허락 받을 생각

      • A. 일단 CPU 로 돌려보고 GPU 개인적으로 좀 써보고 비교해보고 댕글에게 전달

      • A. GPU → CPU 전환

Text 유사도

  • Q. Text 유사도 API 담당하는 서버랑 STT 모델있는 서버를 같은 물리적인 컴퓨터에 둬서 레이턴시 줄이는게 가능한가요?

    • A. 어차피 같은 EC2 씀.

  • Q. STT 모델 서버에서 정적(5초) 감지가 가능할 것 같은데, 그 때 STT 모델 서버가 Text 유사도 서버에게 요청하는 방식은 가능한가요?

    • A. 고려해봅시다. Speech랑 비 Speech 구분을 얼마나 잘 하는지. Whisper Response 어떻게 내려오는지.

  • 안되면 그냥 프론트에서 폴링해도 괜춘