(문서 버전: 20250211)
들어가며 - 여론조사의 해석이 중요한 이유
- 2002년 대선의 단일화 이후로 여론조사는 한국정치에 너무나 깊이 쓰이고 있습니다. 그러한 현실이 옳으냐 그르냐 하는 당위성은 별론으로 하더라도, 우리가 일주일에도 여러개, 선거 시즌에는 거의 매일 쏟아지는 여론조사들을 해석하는 능력을 기르는 것은 매우 중요할 것입니다.
- 그러나 아직도 언론과 이를 받아들이는 수용자들의 상당수가 여론조사에 대한 이론적 이해가 부족하여 옳지 않은 해석을 하게 되는 경우를 많이 접합니다. 서로 다른 조사방식의 여론조사를 나란히 놓고, 혹은 시계열적으로 비교한다거나 아예 품질이 낮아질 수밖에 없는 방식으로 나타난 특정 수치를 가지고 ‘40% 돌파’라며 헤드라인을 뽑는 경우가 부지기수입니다.
- 그래서 저는 이 글을 통해 여론조사의 가장 기본적인 이론적 배경들을 간략히 설명드리고자 합니다. 여론조사에도 패널조사나 인터넷조사가 종종 존재하지만, 글의 주제를 좁혀 그 중 압도적인 비중을 차지하는 전화여론조사의 기술을 주로 이야기하고자 합니다.
여심위 사이트 읽는 법


- 이 글의 목표는 저런 메타정보들을 해석하여 우리 각자가 각각의 여론조사를 어떻게 해석할 것인가 하는 틀을 제시하는데에 있습니다. 이를 위해 간단한 이론을 먼저 소개하고, 각각의 요소들을 어떻게 바라보아야 하는지를 설명하도록 하겠습니다.
여론조사의 본질 - 샘플링과 표본오차, 신뢰수준
- 여론조사가 사회에 대한 사람들의 생각을 묻는 것이라면 실제 선거야말로 가장 정확한, 천만명 이상이 참여하는 여론조사일 것입니다. 하지만 실제로 천만명에게 물어볼 수는 없기 때문에 정확성을 조금 희생하여 한정적인 랜덤한 사람을 샘플링하여 한정적으로 물어보게 됩니다.
- 즉 표본오차는 우리가 선거로만 확인할 수 있는 진실에서 여론조사 결과가 얼마나 비껴가있는지를 이야기합니다. 그런데 다행히도 우리의 모든 선거처럼 모집단이 충분히 크다면 1,000명 정도를 샘플링하여 물어보는 것으로도 대부분 최대 +-3.1%p 정도의 표본오차 내로 측정할 수 있다는 것이 수학적으로 알려져 있습니다.
- 이 때 최대 +-3.1%p라는 의미는 보통 지지율이 50%에 가까울 때에만 +-3.1%p 범위가 성립하고, 50%에서 멀수록 오차범위는 좁아지게 된다는 것입니다. 만약 지지율이 2%로 나온 정당이 있다면 그 오차범위가 -1%~5%에 들어오는 것이 아니고, 1.6%~2.4% 사이의 구간의 오차범위를 형성하게 됩니다. 50%에서 멀기 때문에 더 좁아지는 것이죠.
- 그런데 이 때 이 1,000명이 지독히도 우연히 특정 정당의 지지자들만 표집되어 정당지지율이 왜곡될 수도 있지 않나? 그런 경우는 어떻게 되느냐고 물어볼 수 있습니다. 그것이 바로 신뢰수준의 개념입니다. 신뢰수준이 95%라는 이야기는, 선거를 통하지 않고서는 우리가 닿을 수 없는 실체적 진실이 어딘가에 존재한다고 할 때, 1,000명에게만 물어본 결과가 불운하게도 그 진실에서 위로든 아래로든 3.1%p보다 더 크게 비껴나갈 확률이 5%(=100%-95%)라는 이야기입니다.
- 그래서 보통 여론조사를 많이 보는 사람들이 ‘여조가 튀었다’라고 이야기 할 때, 이렇게 숫자가 갑자기 튄 원인이 여러가지가 있을 수 있겠지만 어떤 외부적 요인 없이도 수학적으로 튈 수 있습니다. 왜냐하면 신뢰수준이 95%라는 것은 20번에 한번은 오차범위 밖에 실체적 진실이 있을 수 있다는 이야기이기 때문입니다.
- 그렇다면 이 신뢰수준을 높일 수는 없을까요? 가능한데, 오차범위를 늘려야 합니다. 실제로 +-3.1%p의 오차범위는 이론적으로 95%의 신뢰수준을 담보하고, +-4.1%p의 오차범위를 허용하면 99%로 신뢰수준을 높일 수 있습니다. 즉 1,000명에게 물어본 결과는 ‘편향이 없다면’ 99% 확률로 +-4.1%p 오차범위 내에 들어오게 됩니다.