브라우저가 얼굴을 읽는 방법: 468개 랜드마크의 원리

셀카 앱이 얼굴에 정확히 안경을 씌우고, 화상회의 프로그램이 배경만 흐리게 처리하는 장면을 우리는 매일 봅니다. 이런 기능의 바탕에는 공통된 기술이 있습니다. 컴퓨터가 얼굴을 "사진 한 덩어리"가 아니라 눈꼬리, 콧등, 입꼬리 같은 수백 개의 점으로 읽어내는 얼굴 랜드마크 기술입니다.

MBTI 얼굴상 분석기도 같은 기술 위에서 동작합니다. 업로드한 사진이나 카메라 영상에서 468개의 특징점을 찾고, 그 점들 사이의 비율을 계산해 얼굴상을 추정합니다. 이 글에서는 랜드마크가 무엇인지, 왜 하필 "비율"을 쓰는지, 그리고 이 기술로 할 수 없는 것은 무엇인지 차례로 살펴봅니다.

얼굴 랜드마크란 무엇인가

랜드마크(landmark)는 원래 지도에서 위치의 기준이 되는 지형지물을 뜻합니다. 얼굴 랜드마크도 같은 발상입니다. 눈의 양 끝, 콧방울, 입술 윤곽, 턱선처럼 누구의 얼굴에나 있는 기준점들을 골라, 사진 속에서 각 점이 어디에 있는지 좌표로 찍는 것입니다.

점이 많을수록 얼굴의 형태를 촘촘하게 기술할 수 있습니다. 초기 기술은 눈, 코, 입 정도만 표시하는 5개, 68개 수준이었지만, 지금 널리 쓰이는 모델은 468개의 점으로 얼굴 표면 전체를 그물망처럼 덮습니다. 이 정도가 되면 눈꺼풀이 얼마나 열려 있는지, 입꼬리가 올라갔는지 내려갔는지, 턱선이 어떤 곡선을 그리는지까지 수치로 표현할 수 있습니다.

MediaPipe Face Landmarker

이 사이트가 사용하는 것은 Google이 공개한 MediaPipe Tasks Vision의 Face Landmarker 모델입니다. 원래 모바일 기기에서 실시간으로 돌아가도록 설계된 경량 모델로, 사진 한 장에서 얼굴을 찾은 뒤 468개 랜드마크의 3차원 좌표를 출력합니다.

주목할 점은 실행 위치입니다. 이 모델은 서버가 아니라 사용자의 브라우저 안에서 실행됩니다. 페이지를 열면 모델 파일이 CDN에서 내려받아지고, WebAssembly와 GPU 가속을 통해 브라우저가 직접 계산을 수행합니다. 사진이 외부로 나가지 않는 구조인데, 이 부분은 온디바이스 AI의 구조와 한계에서 자세히 다룹니다.

왜 좌표가 아니라 비율인가

랜드마크의 원래 출력은 픽셀 좌표입니다. 그런데 픽셀 좌표를 그대로 쓰면 곤란한 문제가 생깁니다. 같은 사람이라도 고해상도 사진에서는 얼굴 폭이 2,000픽셀, 저해상도 사진에서는 300픽셀로 나옵니다. 카메라에 가까이 다가가기만 해도 모든 수치가 커집니다. 즉 픽셀 값은 얼굴의 생김새가 아니라 촬영 조건을 반영합니다.

그래서 MBTI 얼굴상 분석기는 절대 크기를 버리고 비율만 남깁니다. 얼굴 세로 길이를 가로 폭으로 나눈 비율, 광대와 턱선의 상대적인 폭, 이마와 하관의 균형, 눈의 세로 개방감, 눈꼬리의 각도, 입의 가로 폭과 입꼬리 방향 같은 값들입니다. 비율은 해상도가 바뀌어도, 얼굴이 화면에 크게 잡히든 작게 잡히든 거의 같게 유지됩니다. 이렇게 만든 특징 벡터를 16가지 MBTI 얼굴상의 기준 벡터와 비교해 상대적인 일치도를 계산하는 것이 분석의 전부이며, 전체 과정은 분석 방법 안내에 정리되어 있습니다.

랜드마크로 할 수 있는 것

랜드마크는 얼굴의 기하학적 형태를 다루는 데에는 꽤 유능합니다. 표정 변화를 추적해 아바타에 옮기거나, 시선과 고개 방향을 추정하거나, 안경·모자 같은 가상 아이템을 자연스럽게 합성하는 일이 대표적입니다. 접근성 분야에서는 눈 깜빡임이나 입 모양으로 기기를 조작하는 인터페이스에도 쓰입니다. 공통점은 모두 "얼굴이 지금 어떤 모양인가"라는 질문에 답한다는 것입니다.

랜드마크로 할 수 없는 것

반대로 랜드마크는 "이 사람이 어떤 사람인가"라는 질문에는 답하지 못합니다. 468개의 점은 얼굴 표면의 위치 정보일 뿐, 성격, 지능, 성향에 대한 정보를 담고 있지 않습니다. 얼굴 생김새로 성격을 판정하려던 시도가 역사 속에서 어떻게 반복해서 실패했는지를 떠올려 보면, 이 구분이 왜 중요한지 알 수 있습니다.

그래서 이 사이트의 결과도 성격 진단이 아닙니다. "당신의 얼굴 비율이 16가지 얼굴상 원형 중 어느 쪽에 상대적으로 가까운가"를 보여주는 재미용 얼굴상 테스트일 뿐이며, 결과에 나오는 수치도 성격일 확률이 아니라 기준 벡터와의 상대 일치도입니다. 기술이 정밀하다는 것과 결론이 의미 있다는 것은 별개의 문제이고, 그 경계를 분명히 하는 것이 이 도구를 즐겁게 쓰는 방법이라고 생각합니다.

참고 자료

Google AI Edge. MediaPipe Face Landmarker 공식 문서. https://ai.google.dev/edge/mediapipe/solutions/vision/face_landmarker
Kartynnik, Y., Ablavatski, A., Grishchenko, I., & Grundmann, M. (2019). Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs. arXiv:1907.06724.
Lugaresi, C. et al. (2019). MediaPipe: A Framework for Building Perception Pipelines. arXiv:1906.08172.
Todorov, A. (2017). Face Value: The Irresistible Influence of First Impressions. Princeton University Press.