왜 사진 한 장보다 여러 프레임의 평균이 나을까

같은 사람이 같은 자리에서 연속으로 찍은 사진 열 장을 보면, 놀랍게도 열 장이 조금씩 다릅니다. 어떤 장에서는 턱이 살짝 들려 있고, 어떤 장에서는 눈을 반쯤 감았으며, 어떤 장에서는 입꼬리가 무심코 올라가 있습니다. 얼굴 자체는 변하지 않았는데 사진마다 "찍힌 얼굴"은 매번 다른 셈입니다.

얼굴 비율을 재는 분석에서 이것은 사소한 문제가 아닙니다. 어느 한 장을 고르느냐에 따라 측정값이 흔들리고, 결과도 따라 흔들립니다. MBTI 얼굴상 분석기의 실시간 촬영 모드가 사진 한 장 대신 여러 프레임을 모아 평균을 내는 이유가 여기에 있습니다. 이 글에서는 그 원리를 통계의 가장 기본적인 직관과 함께 설명합니다.

한 장의 사진에 섞여 있는 우연들

카메라가 기록하는 것은 "그 사람의 얼굴"이 아니라 "그 순간, 그 각도, 그 조명에서의 얼굴"입니다. 고개가 몇 도만 기울어도 얼굴의 세로·가로 비율이 달라져 보이고, 카메라가 조금 아래에 있으면 하관이 실제보다 넓게 잡힙니다. 셔터가 눌린 찰나에 눈을 깜빡이는 중이었다면 눈의 개방감이 낮게 측정되고, 말하다 찍혔다면 입 폭과 입꼬리 방향이 평소와 다르게 나옵니다. 손떨림으로 인한 미세한 흔들림과 조명이 만드는 그림자도 랜드마크 좌표를 조금씩 밀어냅니다. 이런 촬영 조건의 영향은 카메라 각도와 조명 이야기에서 따로 다룰 만큼 큽니다.

이 모든 요인의 공통점은 "우연"이라는 것입니다. 얼굴의 실제 형태와는 무관하게, 그 순간에만 우연히 끼어든 오차입니다. 통계에서는 이것을 무작위 오차(random error) 또는 노이즈라고 부릅니다.

평균을 내면 왜 오차가 줄어드는가

무작위 오차에는 유용한 성질이 하나 있습니다. 방향이 제멋대로라는 점입니다. 어떤 프레임에서는 턱이 살짝 들려 값이 커지고, 다음 프레임에서는 살짝 숙여져 값이 작아집니다. 오차가 한쪽으로만 쏠리지 않는다면, 여러 번 측정한 값을 평균 낼 때 커진 것과 작아진 것이 서로 상쇄되면서 진짜 값에 가까워집니다.

이것은 과학에서 아주 오래된 지혜입니다. 실험 과학자들이 같은 측정을 여러 번 반복해 평균을 내는 것도, 1907년 프랜시스 골턴이 소의 무게를 어림한 800여 명의 답을 모아 보니 평균이 실제 무게에 놀랍도록 가까웠다고 보고한 것도 같은 원리입니다. 개별 측정은 틀려도, 틀린 방향이 제각각이면 평균은 꽤 정확해집니다. 얼굴 분석에 적용하면 이렇게 됩니다. 프레임 하나하나의 눈꼬리 각도나 광대 폭 비율은 우연에 흔들리지만, 수십 프레임에서 얻은 값의 평균은 그 사람 얼굴의 "평소 비율"에 훨씬 가깝습니다.

실시간 촬영 모드가 프레임을 고르는 기준

다만 아무 프레임이나 평균에 넣으면 오히려 손해입니다. 평균이 오차를 지워 주는 것은 오차가 무작위일 때의 이야기이고, 고개를 크게 돌린 프레임처럼 한 방향으로 심하게 치우친 측정이 섞이면 평균 자체가 끌려갑니다. 그래서 이 사이트의 실시간 촬영 모드는 두 단계로 동작합니다. 먼저 카메라 영상에서 정면 조건이 맞는 "좋은 프레임"만 골라내고, 그렇게 모은 프레임들의 특징값을 평균 낸 뒤에 16가지 얼굴상 기준과 비교합니다.

좋은 프레임의 핵심 조건은 정면성입니다. 랜드마크 좌표로 고개의 좌우 회전과 상하 기울기를 추정할 수 있으므로, 얼굴이 카메라를 충분히 정면으로 향한 순간만 채택합니다. 화면에 안내가 뜨는 동안 잠시 카메라를 바라보고 있으면, 그 사이 조건을 통과한 프레임들이 쌓여 분석 재료가 됩니다. 한 장짜리 사진에서 좋은 조건을 직접 만드는 요령은 사진 가이드에 정리해 두었습니다.

그래도 남는 한계

평균은 우연 오차를 줄일 뿐, 모든 오차를 없애지는 못합니다. 촬영 내내 유지되는 조건, 예컨대 카메라가 계속 아래에 있다거나 조명이 한쪽에서만 비춘다면 그 왜곡은 모든 프레임에 같은 방향으로 들어가므로 평균으로 상쇄되지 않습니다. 통계에서 말하는 계통 오차(systematic error)입니다. 스마트폰 전면 카메라를 얼굴 가까이 들었을 때 생기는 근거리 왜곡도 마찬가지로 평균으로는 지워지지 않습니다.

그리고 가장 근본적인 한계는 측정 바깥에 있습니다. 프레임을 아무리 많이 모아도 정확해지는 것은 "얼굴 비율의 측정"이지 "성격의 판정"이 아닙니다. 얼굴로 실제 성격을 알 수는 없으며, 이 도구는 측정된 비율을 16가지 얼굴상 원형과 견주어 보는 재미용 얼굴상 테스트입니다. 여러 프레임의 평균은 그 놀이를 조금 더 일관되게 만들어 줄 뿐입니다.

참고 자료

Galton, F. (1907). Vox Populi. Nature, 75, 450–451.
Taylor, J. R. (1997). An Introduction to Error Analysis (2nd ed.). University Science Books.
Surowiecki, J. (2004). The Wisdom of Crowds. Doubleday.
Google AI Edge. MediaPipe Face Landmarker 공식 문서. https://ai.google.dev/edge/mediapipe/solutions/vision/face_landmarker