씨랭크

사이트 간 그래프 분석과 스팸 링크 탐지

그래프 기반 스팸 탐지란

웹은 본질적으로 거대한 그래프(Graph)입니다. 각 웹사이트는 노드(Node)이고, 링크는 엣지(Edge)입니다. 이 그래프 구조를 통계적으로 분석하면 정상적인 웹사이트와 스팸 사이트를 구별할 수 있습니다.

그래프 분석 기법은 개별 문서의 내용을 분석하는 것과는 다른 차원의 접근법입니다. 사이트 간의 관계 패턴을 분석하여 조직적인 스팸 네트워크나 부자연스러운 링크 거래를 탐지합니다.

스팸 호스트 탐지의 원리

정상적인 웹사이트의 링크 구조는 자연스러운 분포를 따릅니다. 반면 스팸 호스트는 다음과 같은 비정상적인 패턴을 보입니다:

  • 링크 팜(Link Farm): 특정 그룹의 사이트들이 상호 링크를 주고받는 닫힌 구조
  • 허브-스포크 구조: 하나의 스팸 사이트가 수백 개의 위성 사이트로부터 링크를 받는 구조
  • 급격한 링크 증가: 단기간에 비정상적으로 많은 인바운드 링크가 생성되는 패턴
  • 광고 링크 네트워크: 광고 목적으로만 존재하는 링크 중개 네트워크

클로킹 스팸의 특징

클로킹(Cloaking)은 가장 교묘한 스팸 기법 중 하나입니다. 그 특징은 다음과 같습니다:

  • 검색엔진 크롤러가 수집할 때는 정상적인 페이지를 보여줌
  • 검색 결과를 통해 사용자가 방문하면 전혀 다른 스팸 페이지를 보여줌
  • 주로 자바스크립트 기반으로 구현되어 리퍼러(Referrer)를 분석하여 트래픽 출처에 따라 다른 콘텐츠를 제공

이를 탐지하기 위해 검색엔진은 다양한 User-Agent와 접근 경로를 시뮬레이션하고, 자바스크립트를 실행한 결과와 실행하지 않은 결과를 비교 분석합니다.

기생 스팸 탐지: NLU + GRAPH

최근 등장한 새로운 위협은 정상 사이트 내부에 기생하는 스팸입니다. 해킹된 웹사이트에 스팸 페이지가 몰래 삽입되는 경우, 사이트 소유자도 인지하지 못하는 사이에 스팸 콘텐츠가 유포됩니다.

이런 기생 스팸을 탐지하기 위해 NLU(Natural Language Understanding)와 그래프 분석을 결합한 방법이 사용됩니다:

  1. 사이트의 기존 콘텐츠와 새로 추가된 콘텐츠의 주제 일관성을 NLU로 분석
  2. 해당 사이트의 일반적인 링크 패턴과 새로운 링크의 패턴을 그래프로 비교
  3. 비정상적인 영역을 자동으로 식별하여 해킹 여부를 판단

문서 외형(Layout) 클러스터링

자동으로 대량 생성된 스팸 페이지는 동일한 HTML 구조와 레이아웃을 공유합니다. 문서의 외형적 특성(DOM 구조, CSS 클래스, 콘텐츠 영역 비율)을 벡터화하여 클러스터링하면 대량 스팸을 일괄 탐지할 수 있습니다.

자동 생성일 때는 대량으로 만들어지기 때문에, 하나만 찾으면 동일 패턴의 전체를 식별할 수 있다는 것이 그래프 분석의 강점입니다.

건전한 링크 전략

이러한 그래프 분석 기술이 발전할수록 인위적인 링크 조작은 더 빨리 탐지됩니다. 자연스러운 콘텐츠 기반의 링크 획득, 관련 분야 사이트와의 정당한 협력, 그리고 사용자에게 실질적 가치를 제공하여 자발적인 링크를 유도하는 전략이 유일하게 지속 가능한 방법입니다.

잘 되는 서비스에는 항상 스팸이 나타납니다. 검색엔진은 이에 대응하기 위해 끊임없이 기술을 발전시키고 있으며, 그래프 분석은 그 핵심 무기 중 하나입니다.