백엔드 멘토링

웹사이트에서 볼 수 있는 유해 광고들, 왜 못막을까?

piedra_de_flor 2025. 8. 29. 01:01

 

 


 

🎯 글을 쓰게 된 이유

 

웹사이트를 돌아다니다 보면 유해 광고들을 심심치않게 볼 수 있다.

카카오톡에서는 이런 유해한 영상을 검열하는 팀이 따로 있어서, 오픈 채팅과 같은 곳에 유해한 영상이나, 욕설등을 하면

자동으로 순식간에 필터링 되면서 블랙처리가 된다고 알고 있는데,

 

웹사이트에서는 유해 광고 검열 팀이 없는걸까??

이런 부분을 신경쓰고 있다기엔 너무 많이 보이는데 왜 못막고 있을까

 

그래서 오늘은 웹사이트에서 볼 수 있는 유해 광고들, 왜 못막을까 라는 주제로 글을 써보려고 한다.

 

 


 

🔍 웹사이트에 광고를 올리는 과정

 

주로 웹사이트 광고를 올리는건 여러가지 광고 서비스가 있다

  • KAKAO AdFit
  • Google AdSense
  • Dable
  • Tenping
  • 등등...

광고가 올라가는 과정에 대해서 간단히 설명하자면

 

1️⃣ 광고주가 광고를 등록하는 단계

  1. 광고 계정 생성
    • 광고주는 각 플랫폼(AdFit, AdSense 등)에 계정을 만듭니다.
    • 이 계정에는 결제 정보, 광고주 정보, 광고 목적 등이 포함됩니다.
  2. 광고 캠페인 설정
    • 광고 유형 선택: 배너, 동영상, 네이티브, 추천형 광고 등
    • 타겟 설정: 지역, 성별, 연령, 관심사 등
    • 예산 및 입찰가 설정: CPC(Cost Per Click), CPM(Cost Per Mille) 등
  3. 광고 콘텐츠 업로드
    • 이미지, 영상, 링크, 텍스트 등 광고 소재 업로드
    • 플랫폼은 업로드된 광고의 규격, 용량, 정책 위반 여부를 자동/수동으로 검수

2️⃣ 플랫폼 서버에서 광고 검수

  • 자동 검수: AI/필터링 시스템으로 악성코드, 부적절 콘텐츠, 스팸 URL 확인
  • 수동 검수: 필요 시 운영자가 직접 확인
  • 검수가 통과하면 광고는 배포 준비 상태가 됩니다.

3️⃣ 광고 매칭 및 노출

  1. 광고 요청
    • 사용자가 웹사이트를 방문하면, 웹페이지의 광고 영역에서 광고 요청(Request)을 플랫폼 서버로 보냅니다.
    • 요청에는 페이지 URL, 사용자 정보(쿠키, 위치), 디바이스 정보 등이 포함됩니다.
  2. 광고 매칭(Real-Time Bidding, RTB)
    • 플랫폼 서버는 광고주의 타겟 조건과 입찰가를 기반으로 적합한 광고를 선택
    • 예: Google AdSense는 RTB와 타겟팅 알고리즘을 통해 가장 적합한 광고를 결정
  3. 광고 전달
    • 선택된 광고를 HTML/JS 코드 형태로 사용자 브라우저에 전송
    • 브라우저는 광고를 렌더링하여 웹페이지에 노출

4️⃣ 데이터 기록 및 후속 처리

  • 광고 노출, 클릭, 전환 데이터를 플랫폼 서버에서 기록
  • 광고주는 대시보드에서 실시간 보고 가능
  • 수익 정산: 클릭/노출 기준으로 광고 수익 계산 후 광고주 및 게시자에게 지급

이러한 과정들을 거친다.

 

여기서 주목할 점은 사용자가 광고를 등록하면 자동 검수 혹은 수동 검수를 진행한다는 점이다.

정확한 내용은 알 수 없지만, 아마 AI를 활용한 자동 검수를 하지 않을까 싶다.

 

자연스레 "AI가 좋으면 다 검열할 수 있지 않을까??" 라는 생각이 든다.

그래서 광고 검열은 모두 AI가 한다는 전제하에, AI가 유해 광고들을 왜 검열하지 못하는지에 대해서

자세하게 알아보자

 

(물론 유해 광고 검열을 다 하지 못하는 이유는 AI에 국한되지 않고 더 다양할 수 있음)

 

 


 

🤖 AI 기반 광고 검열의 현실적 한계

 

현대 웹 생태계에서 악성 광고와 유해 콘텐츠의 완전한 차단이 불가능한 이유는

AI의 근본적 한계와 시스템 설계의 제약에서 비롯된다.

 

📊 실시간 입찰(RTB) 시스템의 시간 제약

모든 입찰 프로세스는 100밀리초 내에 완료되어야 한다

  1. 입찰 요청 생성
  2. 사기 탐지
  3. 브랜드 안전성 검사
  4. 경매 진행
  5. 광고 전송

📝 실시간 입찰(RTB)이란?

사용자가 웹페이지를 로딩하는 순간, 수많은 광고주들이 실시간으로 그 광고 공간에 대해 경매를 벌이는 시스템이다.

마치 경매장에서 물건을 놓고 순식간에 입찰하는 것과 같지만, 이 모든 과정이 0.1초 만에 완료되어야 한다.

이 극히 짧은 시간 안에 완벽한 콘텐츠 분석을 수행하는 것은 수학적으로 불가능에 가깝다.

 

 

🤖 AI 모델의 정확도 한계

 

AI가 광고를 악성/정상으로 분류할 때 현실적 정확도는 아래와 같다고 한다.

  • 정밀도: 85-95%
  • 재현율: 80-90%
  • F1 점수: 82-92%

이는 베이즈 오류율로 인해 100%의 정확도는 불가능하다고 한다.

 

📝 베이즈 오류율이란?

통계학에서 아무리 완벽한 AI 모델을 만들어도 달성할 수 없는 이론적 한계를 말한다.

데이터 자체에 내재된 불확실성 때문에 100% 정확한 분류는 원리적으로 불가능하다.

 

왜 100% 정확도가 불가능한가?

  1. 동일한 외관, 다른 의도: 겉보기에는 똑같지만 실제로는 다른 목적
  2. 문맥 의존성: 같은 광고라도 게재되는 사이트에 따라 의미 변화
  3. 시간에 따른 변화: 처음엔 정상이었다가 나중에 악성으로 변하는 경우
  4. 주관적 판단: "유해함"의 기준이 사람마다, 문화마다 다름

이런 이유로 AI는 확률적 판단만 가능하며, 100% 확실한 답은 원리적으로 불가능하다.

 

 

⚔️ 적대적 공격 (Adversarial Attacks)

 

공격자들은 적대적 예제를 사용해 AI를 속인다.

 

📝 적대적 예제란?

사람 눈에는 거의 동일해 보이지만 AI가 완전히 잘못 판단하도록 만든 교묘한 변형이다.

예를 들어, 정상 광고에 사람이 인지할 수 없는 미세한 노이즈를 추가해 AI가 "안전한 광고"로 잘못 분류하게 만들 수 있다.

 

 

 

🔄 개념 표류 (Concept Drift)

악성 광고 패턴은 지속적으로 진화하여 기존 AI 모델의 성능이 지수적으로 감소한다.

 

📝 개념 표류란?

오늘 훈련된 AI 모델이 내일의 새로운 공격을 탐지하지 못하는 현상이다.

바이러스와 백신의 관계와 같다.

새로운 바이러스가 나타나면 기존 백신으로는 막을 수 없는 것처럼, 새로운 악성 광고 기법이 등장하면 기존 AI 모델이 무력화된다.

 

 


 

🗄️시스템의 한계

 


AI 기술 이외에도 여러 시스템의 한계 또한 존재한다.

 

1. CAP 정리의 제약

 

📝 CAP 정리란?

분산 시스템에서 다음 세 가지 중 최대 두 가지만 동시에 달성할 수 있다는 컴퓨터 과학의 정리

  • 일관성: 모든 서버가 동일한 판단
  • 가용성: 시스템이 항상 응답
  • 분할 허용성: 네트워크 단절 시에도 작동

실제 광고 시스템은 가용성분할 허용성을 선택해 최종 일관성을 허용한다.

즉, 짧은 시간 동안 서버마다 다른 판단을 내릴 수 있다.

 

 

2. 비잔틴 장애 허용 문제

 

📝 비잔틴 장애 허용 문제란?

분산 네트워크에서 일부 참가자가 악의적으로 거짓 정보를 제공할 때 전체 시스템이 올바른 결정을 내리기 어려워지는 문제다.

고대 비잔틴 제국의 장군들이 배신자가 있을 수 있는 상황에서 작전 계획에 합의해야 하는 딜레마에서 이름이 유래되었다.

광고 네트워크에서 악의적 노드가 "안전한 광고"라고 거짓 신호를 보내면 전체 시스템 판단이 왜곡될 수 있다.

 

 

 

3. 말버타이징 (Malvertising)의 은밀한 침투

 

📝 말버타이징이란?

"악성 소프트웨어(malware) + 광고(advertising)"의 합성어로, 정상적인 광고에 악성 코드를 숨겨 사용자를 감염시키는 공격이다. 사용자가 클릭하지 않아도 광고가 로딩되는 순간 자동으로 악성코드가 실행될 수 있다.

 

은밀함의 무서움:

  • 2012년 거의 100억 개의 광고가 말버타이징에 감염
  • 뉴욕타임스, BBC, 스포티파이, 포브스, NFL 등 유명 사이트들도 피해
  • 대부분 손상된 광고 네트워크를 통해 확산

 

 


 

🎯 결론

 

 

현재의 기술로는 완전한 광고 보안은 이론적으로 달성 불가능하다.

하지만 이것이 포기해야 할 이유는 아니다. 근사 최적해를 통해 실용적 수준의 보안을 제공할 수 있으며,

핵심은 확률적 보장적응적 방어를 통한 지속적 개선이다.

 

마치 완벽한 보안이 불가능하다고 해서 자물쇠를 사용하지 않는 것이 아니듯,

100% 완벽하지 않더라도 95% 수준의 보안을 달성하는 것만으로도 충분한 가치가 있다.

 

솔직히 95%도 검열을 못하고 있다고 나는 생각한다.

이 글에서는 기술적인 부분을 중점으로 다루었지만, 법률이나 문화등에 따른 차이도 있다고는 한다.

 

언젠간 AI가 100% 검열을 할 수 있는 날이 오지 않을까라는 기대를 하며,

이제는 그냥 유해 광고도 어쩔 수 없구나~ 하고 넘겨야겠다.....