Share
카테고리 Tech / 토픽

유튜브, 거대 AI 모델을 스마트폰에 담다: 실시간 생성형 AI 배경 기술의 모든 것

작성자 mummer · 2025-09-01

매분 500시간 이상의 영상이 업로드되는 유튜브에서 크리에이터들은 이제 상상만으로 영상의 배경을 바꾸는 새로운 무기를 손에 쥐게 되었습니다. 유튜브가 쇼츠(Shorts)를 위해 공개한 실시간 생성형 AI 효과 ‘드림 스크린(Dream Screen)’은 단순한 텍스트 입력만으로 영상의 배경을 원하는 스타일로 즉시 변환시키는 혁신적인 기능입니다. 하지만 수십억 개의 매개변수를 가진 거대한 AI 모델을 어떻게 스마트폰에서 실시간으로 구현했을까요? 유튜브와 구글 리서치, 구글 클라우드 팀의 수년간에 걸친 기술적 성과의 핵심을 파헤쳐 봅니다.

모바일 실시간 생성형 AI, 불가능에 가까웠던 도전

생성형 AI 모델은 막대한 컴퓨팅 자원을 필요로 합니다. 이를 모바일 기기에서 실시간으로, 높은 품질을 유지하며 구동하는 것은 엄청난 기술적 난제였습니다. 사용자가 스마트폰으로 영상을 촬영하고, 텍스트 프롬프트를 입력하면 지연 없이 즉시 배경이 바뀌는 매끄러운 경험을 제공하는 것이 최종 목표였습니다. 유튜브는 이 목표를 달성하기 위해 다음과 같은 네 가지 핵심 기술을 융합한 시스템을 개발했습니다.

  1. 효율적인 모델 아키텍처: 기존의 거대한 이미지 생성 모델 대신, 비디오에 특화된 경량화된 확산 모델(Diffusion Model)을 새롭게 개발했습니다.
  2. 최적화된 추론 파이프라인: GPU, NPU와 같은 모바일 하드웨어 가속기를 최대한 활용하고, 모델의 정밀도를 낮춰 속도를 높이는 양자화(Quantization) 기술을 적용했습니다.
  3. 클라이언트-서버 하이브리드 처리: 스마트폰(클라이언트)과 클라우드(서버)가 작업을 분담하는 방식을 채택했습니다. 스마트폰은 비교적 가벼운 작업을, 클라우드는 무거운 AI 연산을 처리합니다.
  4. 유튜브 생태계와의 완벽한 통합: 쇼츠 제작 과정에 자연스럽게 녹아들도록 기능을 통합하고, 전 세계 사용자를 감당할 수 있는 안정적인 백엔드 시스템을 구축했습니다.

상상을 현실로 만드는 배경 생성 기술의 비밀

이번 기술의 핵심은 ‘하이브리드 처리 방식’‘실시간 비디오 매팅’ 기술에 있습니다. 사용자가 영상을 촬영하면, 스마트폰은 먼저 영상에서 인물과 배경을 분리하는 ‘비디오 매팅(Video Matting)’ 작업을 수행합니다. 이 작업에는 모바일 기기에서 효율적으로 실행되도록 최적화된 경량 신경망 모델이 사용됩니다.

이후 분리된 배경 정보와 사용자가 입력한 텍스트 프롬프트는 클라우드로 전송됩니다. 클라우드에 있는 거대하고 강력한 비디오 확산 모델이 이 정보를 바탕으로 새로운 배경을 생성합니다. 특히 이 모델은 프레임 간의 시간적 일관성을 유지하는 ‘시간적 주의 메커니즘(Temporal Attention Mechanisms)’을 적용하여, 움직이는 영상에서도 배경이 끊기거나 어색하지 않고 자연스럽게 이어지도록 만듭니다. 또한, 대형 모델의 지식을 소형 모델로 옮기는 ‘지식 증류(Knowledge Distillation)’ 기법을 통해 모델 크기는 줄이면서도 높은 품질을 유지했습니다.

마지막으로, 클라우드에서 생성된 새로운 배경은 다시 사용자의 스마트폰으로 전송되어 실시간으로 인물과 합성됩니다. 이 모든 과정이 순식간에 일어나기 때문에 사용자는 마치 스마트폰 안에서 모든 마법이 일어나는 것처럼 느끼게 됩니다. 이는 온디바이스 AI의 즉각적인 반응성과 클라우드 AI의 강력한 성능을 결합한 최적의 솔루션이라 할 수 있습니다.

미래 전망: 더 많은 크리에이터에게, 더 높은 창의성을

유튜브 쇼츠의 생성형 AI 효과 출시는 시작에 불과합니다. 유튜브는 앞으로도 AI를 통해 크리에이터의 창의력을 극대화하고 영상 제작의 장벽을 낮추는 새로운 도구들을 계속해서 선보일 계획입니다. 물론, 편향성이나 공정성 같은 생성형 AI의 윤리적 문제를 해결하고, 안전한 플랫폼 환경을 유지하기 위한 책임감 있는 AI 개발 노력도 함께 이어갈 것이라고 밝혔습니다. AI가 크리에이터의 상상력과 만나 어떤 새로운 콘텐츠를 만들어낼지 그 귀추가 주목됩니다.

You may also like