사진을 서버로 보내지 않는 분석: 온디바이스 AI의 구조와 한계

얼굴 사진을 분석해 주는 서비스를 만날 때 가장 먼저 드는 걱정은 대개 같습니다. "내 사진이 어딘가로 전송되어 저장되는 것은 아닐까." 실제로 많은 이미지 분석 서비스는 사진을 서버로 올려 처리하는 구조라서, 이 걱정은 근거가 없지 않습니다.

그런데 최근 몇 년 사이 다른 방식이 가능해졌습니다. 머신러닝 모델을 사용자의 기기, 심지어 브라우저 안에서 직접 실행하는 온디바이스(on-device) 분석입니다. MBTI 얼굴상 분석기도 이 방식을 씁니다. 사진과 카메라 영상은 브라우저 밖으로 나가지 않습니다. 이 글에서는 그것이 어떻게 가능한지, 그리고 어떤 대가가 따르는지 살펴봅니다.

서버 전송형과 온디바이스, 무엇이 다른가

서버 전송형 분석은 우체국에 필름을 맡기는 것과 비슷합니다. 사진을 서비스 회사의 서버로 보내면, 서버의 강력한 컴퓨터가 분석을 마치고 결과만 되돌려 줍니다. 장점은 분명합니다. 서버에는 크고 정확한 모델을 올릴 수 있고, 사용자의 기기가 낡았어도 결과 품질이 같습니다. 대신 사진이라는 민감한 데이터가 반드시 회사의 손을 거쳐야 하고, 사용자는 그것이 어떻게 보관되고 언제 지워지는지 약관을 믿는 수밖에 없습니다.

온디바이스 분석은 순서를 뒤집습니다. 사진을 보내는 대신, 분석 도구(모델)를 사용자 쪽으로 가져옵니다. 페이지를 열면 모델 파일이 내려받아지고, 계산은 전부 사용자의 기기에서 일어나며, 원본 데이터는 그 자리에 머뭅니다. 데이터가 이동하지 않으니 전송 중 유출도, 서버 보관도 원천적으로 없습니다.

브라우저에서 머신러닝이 도는 원리

브라우저는 원래 웹페이지를 보여주는 프로그램이지 수치 계산 장치가 아니었습니다. 이 한계를 바꾼 것이 WebAssembly입니다. WebAssembly는 C++ 같은 언어로 작성된 프로그램을 브라우저가 기계어에 가까운 속도로 실행할 수 있게 해 주는 표준 기술로, 주요 브라우저가 모두 지원합니다. 덕분에 원래 모바일 앱용으로 만들어진 머신러닝 엔진이 거의 그대로 웹에서 돌아갈 수 있게 되었습니다.

여기에 GPU 가속이 더해집니다. 얼굴 랜드마크 추출 같은 작업은 수많은 곱셈과 덧셈을 병렬로 처리하는 일인데, 이는 그래픽 처리 장치(GPU)가 가장 잘하는 계산입니다. 브라우저는 WebGL이나 WebGPU 같은 인터페이스를 통해 기기의 GPU에 이 계산을 맡길 수 있고, 그 결과 실시간 카메라 영상에서도 프레임마다 얼굴을 추적할 만한 속도가 나옵니다. 이 사이트가 쓰는 Google MediaPipe Tasks Vision의 Face Landmarker가 바로 이런 구조로, CDN에서 로드되어 브라우저 안에서 468개의 얼굴 특징점을 찾아냅니다. 그 특징점으로 무엇을 계산하는지는 468개 랜드마크의 원리에서 다룹니다.

이 사이트의 실제 데이터 흐름

원칙을 말하는 것과 실제 구현을 밝히는 것은 다르므로, 이 사이트의 데이터 흐름을 구체적으로 적어 둡니다. 업로드한 사진과 카메라 영상은 서버로 전송되지 않습니다. 랜드마크 추출, 비율 계산, 16가지 얼굴상 기준 벡터와의 일치도 비교까지 모두 브라우저 안에서 끝납니다. 아이폰에서 흔한 HEIC/HEIF 형식의 사진도 서버를 거치지 않고 브라우저 안에서 JPG로 변환한 뒤 분석합니다.

예외는 하나입니다. 선택 기능인 AI 해설을 사용할 때는 상위 후보 얼굴상과 특징 요약 텍스트가 서버로 전송됩니다. 즉 서버가 받는 것은 이미지가 아니라 "어떤 얼굴상 후보가 나왔고 어떤 특징이 계산되었는지"를 요약한 글자뿐입니다. 전체 분석 절차는 분석 방법 안내에 정리되어 있습니다.

온디바이스 방식의 한계

물론 공짜는 아닙니다. 첫째, 결과 품질과 속도가 사용자의 기기에 의존합니다. 최신 스마트폰에서는 실시간으로 매끄럽게 돌아가는 분석이 오래된 기기에서는 느리거나 버벅일 수 있습니다. 둘째, 모델 크기의 제약이 있습니다. 브라우저로 내려받아야 하므로 서버에서나 쓸 법한 거대한 모델 대신 수 메가바이트 수준의 경량 모델을 써야 하고, 첫 방문 시 모델을 내려받는 시간도 필요합니다. 셋째, 배포된 모델은 기술적으로 사용자가 들여다볼 수 있으므로 모델 자체를 비밀로 유지하기 어렵습니다.

바꿔 말하면 온디바이스는 "가장 정확한 분석"이 아니라 "데이터를 내놓지 않아도 되는 분석"을 고른 선택입니다. 재미용 얼굴상 테스트처럼 극한의 정확도보다 가벼움과 프라이버시가 중요한 용도에는 이 교환이 합리적이라고 봅니다. 얼굴로 실제 성격을 알 수 없다는 사실은 어느 방식에서든 변하지 않으므로, 결과는 어디까지나 웃고 즐기는 소재로 받아들이시기 바랍니다.

참고 자료

Google AI Edge. MediaPipe Face Landmarker (Web) 공식 문서. https://ai.google.dev/edge/mediapipe/solutions/vision/face_landmarker/web_js
WebAssembly 공식 사이트. https://webassembly.org
MDN Web Docs. WebAssembly / WebGL / WebGPU API 문서. https://developer.mozilla.org
Lugaresi, C. et al. (2019). MediaPipe: A Framework for Building Perception Pipelines. arXiv:1906.08172.