아이티랩 - 서드 파티 쿠키의 제한, 리타깃팅 광고는 사라질까?

*이번 콘텐츠는 빅인사이트 데이터 사이언티스트 전진형님이 작성해 주신 기술 블로그를 바탕으로 편집한 내용입니다.

2023년부터 구글 크롬이 제공하는 서드 쿠키(Third Party Cookie) 사용이 제한됩니다. 이로 인해 애드테크 산업군에 큰 변화가 찾아올 것으로 예상됩니다.

지금까지는 DMP에서 쿠키를 수집·분석해 DSP에게 분석된 고객 행동 데이터를 전달했습니다. DSP는 전달받은 고객 행동 데이터를 기반으로 광고주가 효율이 좋은 매체의 인벤토리에 입찰할 수 있도록 돕는 역할을 하고 이런 과정을 거쳐 웹 브라우저 사용자는 쇼핑하던 상품을 인터넷 뉴스 배너 광고에서 볼 수 있습니다.

*더욱 자세한 디지털 광고 생태계 이야기가 궁금하다면?
▶ 구글 크롬이 서드 파티 쿠키를 제한하면 생기는 일 보러 가기 (클릭)

하지만 서드 파티 쿠키 지원 중단이 예고되며 2023년부터는 이러한 리타깃팅 광고 진행이 어려워진다는 의미. 이런 상황의 대안으로 언급되는 방법 중 하나가 바로 ‘핑거프린트(Browser Fingerprint) 기법’입니다. 이번 콘텐츠에서는 다가오는 서드 파티 쿠키 제한에 대비하는 대안책인 핑거프린트의 방법론부터 기대효과까지 알아보겠습니다.

서드 파티 쿠키가 없어도 괜찮아요.
핑거프린트가 있으니까

지금까지는 서드 파티 쿠키를 수집해 고객 행동 데이터를 분석했습니다. 하지만 점차 활용이 어려워지면서, 쿠키를 이용하지 않고 웹 브라우저 데이터를 이용해 식별하는 기술인 ‘핑거프린트’가 다시금 주목받고 있습니다. 핑거프린트 기법으로 사용자를 식별하려면 웹 브라우저 내 사용자 정보가 필요합니다. 사용자 특징을 유추할 수 있는 수집 가능한 정보는 약 60가지며, 대표적인 정보는 아래와 같습니다. 

<사용자 특징을 유추할 수 있는 정보>

-디바이스 정보 (맥북, 삼성, 아이폰, … / CPU, memory, graphic, …)
-설정 언어 (한국어, 영어, 일본어, …)
-Audio(음향 설정 수치)
-Viewport(사용자가 설정해두는 브라우저 창의 크기, ex: 1920*1080)
-확장 프로그램 설치 개수
-기타 등등의 사용자 설정 값 약 60여 개

하지만 수집된 모든 정보를 활용하진 않습니다. 변동성이 높은 데이터는 제외해 수집된 데이터 정확성을 높입니다.

수집된 사용자 데이터는 어떻게 활용할까?

NSH・KNN・Naïve Basayes 알고리즘을 활용하는 핑거프린트 기법은 사용자를 더욱 정확하게 식별합니다. 

1. LSH(Locality Sensitive Hash)

LSH는 해시 함수(Hash Function)를 이용해 비교 대상과 속성값 유사도 측정할 때 사용하는 알고리즘입니다. 해시 함수는 임의의 길이를 가진 문자를 고정된 길이의 해시로 바꿔주는 역할을 하며, 이러한 해시 함수를 적용하여 나온 고정된 길이 값을 해시값(Hash Value)이라 합니다. 이때 나온 고정된 길이의 해시값은 ‘단방향 암호화’ 방식으로, 이미 암호화된 값은 원래 어떤 문장이었는지 해독할 수 없어 데이터 보안 문제에서 비교적 자유롭습니다. 본격적으로 LSH의 유사도 측정 방법을 살펴볼까요? LSH 알고리즘은 간단하게 3단계에 걸쳐 유사성을 확인합니다.

<해쉬 과정>

암호화: [CRM 마케팅 자동화 솔루션 빅인(bigin) —> 121 AbCDefgH34]
확인: [121 AbCDefgH34 —> CRM 마케팅 자동화 솔루션 빅인(bigin)]

이미지 1. LSH 알고리즘 1단계
    
     (adsbygoogle = window.adsbygoogle || []).push({});     
    
     (adsbygoogle = window.adsbygoogle || []).push({});     

[LSH 알고리즘 1단계] 특정 문자를 N개의 문자열로 쪼갬

예를 들어 [이미지 1]처럼 ‘안녕하세요. 저는 홍길동입니다’라는 임의 길이의 문장이 있습니다. 이때 세팅값을 2로 설정합니다. ‘안녕/녕하/하세/…/입니/니다/’로 두 글자씩 쪼개집니다. 같은 방식으로 세팅값을 3으로 설정한다면 어떻게 될까요? 위의 문장은 ‘안녕하/녕하세/…’로 나눠지겠죠. 이렇게 세팅한 값에 따라 문자를 쪼갠 후 다음 단계로 넘어갑니다.

이미지 2. LSH 알고리즘 2단계

[LSH 알고리즘 2단계] 나눠진 문자를 암호화 

암호화하기 전, 문자를 해시로 변환해야 합니다. 문자는 해시 함수를 이용해 변환됩니다. 이후 변환된 해시를 버킷에 저장하면 고정된 길이의 암호가 만들어집니다. 이렇게 생성된 암호가 해시 코드(Hash Code)·해시섬(Hash Sum)·체크섬(Check Sum)으로도 불리는 해시값입니다. 

이미지 3. LSH 알고리즘 3단계

[LSH 알고리즘 3단계] 해시값을 다시 해시로 변환해 유사도 확인

3단계는 전 프로세스를 반대로 진행해 유사도를 확인합니다. 즉, [문자 쪼개기 → 해시 함수를 이용해 해시화 → 해시를 버킷에 저장 → 해시값으로 암호화] 했던 프로세스를 [암호화된 해시값 → 버킷에 저장 → 해시로 변환 → 다른 데이터와 유사도 확인]으로 같은 과정을 반복합니다.

여기서 암호화됐던 해시값은 함수로 다시 변환해도 어떤 문자였는지 해독할 수 없습니다. 때문에 처음 문자가 아닌, 변환된 해시를 매치해 유사도를 측정합니다. 이렇게 나온 결과값으로 유사도 기준을 정립할 수 있습니다. 하지만 문제점은 LSH 알고리즘 정확도가 높지 않다는 점입니다. 이런 문제를 해결하기 위해 두 가지의 그룹 분류 알고리즘을 활용해야 합니다. 그룹 분류 알고리즘은 KNN과 Naive Bayes입니다.

2. KNN(K-Nearest-Neighbor)

KNN란 앞선 해시값을 일정 기준([이미지 4]의 x, y축)에 따라 나열한 뒤, K(=거리)를 기준으로 데이터를 군집화해 어떤 그룹에 속하는지 분류하는 알고리즘입니다. 다시 말해, K를 기준으로 새로운 속성값과 주변 속성값을 비교해 더 많은 속성값에 포함되는 그룹으로 분류하는 방식입니다.

이미지 4. KNN 알고리즘

[이미지 4]의 그래프 가운데 ‘블랙’이라는 새로운 속성값이 있습니다. KNN으로 분류하면 블랙은 어떤 그룹으로 분류될까요?

블랙을 중심으로 K가 3일 때, 범위 안에는 레드 2개, 블루 1개, 옐로우 1개의 속성 값이 있습니다. 이때 블랙은 레드 그룹으로 분류됩니다. 하지만 K가 5인 경우는 어떨까요? 범위 안에 레드 5개, 블루 6개, 옐로우 1.5개의 속성값이 있어, 블랙은 블루 그룹으로 분류됩니다.  이렇게 KNN은 어떤 새로운 속성 값이 주어졌을 때, 거리를 기준으로 군집화합니다. 때문에 거리값을 어떻게 설정하느냐에 따라 결과값이 달라질 수 있습니다.

3. 나이브 베이스(Naive Bayes)

나이브 베이스란 속성값을 확률적으로 예측해 분류하는 알고리즘입니다. KNN과 다르게 분류된 속성(ex. 블랙, 그린)일지라도 나이브 베이스는 그룹에 속할 확률을 분석하기 때문에 같은 그룹으로 분류될 수 있습니다.

이미지 5. 나이브 베이스 알고리즘

다르게 분류했던 속성값이 어떻게 같은 그룹으로 분류될까요? 먼저, 나이브 베이스 공식으로 사전 확률을 구합니다. 이후 개별 특성이 나타날 확률(=레드·블루·그린이 나타날 확률)을 사전 확률과 곱합니다. 이때 나온 확률을 기준으로 그룹을 나누는 방식이 나이브 베이즈 알고리즘입니다. 이렇게 나이브 베이스 알고리즘으로 그룹화한다면 [이미지 5]처럼 속성값을 분류할 수 있습니다.

[이미지 4]의 KNN 알고리즘에 따르면 K가 5일 때, 속성값 A는 레드 그룹으로 분류됐습니다. 거리 내에 레드 속성이 더 많기 때문입니다. 하지만 데이터가 가진 속성에 해당 알고리즘을 적용했더니 A는 확률적으로 옐로우 그룹 속성에 나타내고 있네요.

확률에 따라 그룹화하는 알고리즘인 나이브 베이스는 예측을 위한 추정 확률을 쉽게 얻을 수 있어 일반적으로 스팸 메일을 분류에 사용됩니다. 예를 들어 스팸인지 아닌지 판단하는 속성값을 먼저 설정합니다(ex. 할인, 대박, 감사). 데이터별 해당 단어가 내용에 포함이 됐으면 1(포함), 그렇지 않다면 0(미포함)으로 가공합니다. 이후 가공된 데이터를 나이브 베이스 알고리즘으로 분류하면 속성이 포함된 확률에 따라 스팸 메일 여부를 구분할 수 있습니다.

<핑거프린트 프로세스>

-웹 브라우저 내에서 사용자를 식별할 수 있는 정보를 수집해 해시값 생성.  
-웹 브라우저의 Raw data를 KNN 또는 나이브 베이스로 분류하고, 새로운 사용자 정보도 같은 알고리즘으로 분류.  
-LSH 알고리즘을 활용해 분류된 새로운 사용자의 해시값과 Raw Data의 해시값 유사도 측정.  
-측정한 유사도에 따라 판단(유사도가 90% 이상이면 같은 사람으로 판단함). 

사용자 식별부터 개인화 마케팅까지 가능한 핑거프린트 기법

핑거프린트 기법은 지금까지 살펴본 알고리즘을 활용해 높은 정확도로 사용자를 구분합니다. 핑거프린트 기법을 활용하면 어떤 성과를 기대할 수 있을까요? 가장 중요한 핵심 두 가지를 정리해 보았습니다. 

[정확한 사용자 식별과 그룹화]

핑거프린트는 쿠키가 아닌 웹 브라우저 정보에 기반해 사용자 특징을 파악합니다. 따라서 쿠키가 제한되더라도 정보 데이터 간 유사도를 분석해 사용자를 식별합니다. 또한 KNN과 나이브 베이스, 두 가지 분류 알고리즘을 활용해 그룹화하기 때문에 그룹 분류의 정확성을 높일 수 있습니다.  

[유사한 사용자에게 동일한 마케팅 액션 수행]

사용자 정보 분석을 통해 그룹화한 후 유사도를 확인하는 핑거프린트 기법을 활용한다면, 유사한 사용자에게 적절한 마케팅 액션을 수행할 수 있습니다.  

예를 들어, 뷰티 제품을 판매하는 온라인 쇼핑몰에는 새로운 사용자(X)가 방문했니다. 먼저, 웹 브라우저 내 X의 정보를 수집해 KNN, 나이브 베이스 알고리즘으로 분류합니다. 이후 그룹으로 분류된 데이터는 LSH 알고리즘으로 기존 사용자였던 A, B, C의 데이터와 비교합니다(핑거프린트 과정). A와 70%, B와 80%, C와 90%의 유사도를 보였다면, X는 C와 유사한 것으로 판단할 수 있습니다. 같은 방법으로 서드 파티 데이터로 해왔던 리타깃팅 광고도 쿠키 없이 가능합니다.  그렇다면 기존에 C에게 노출시켰던 캠페인을 X에게도 똑같이 노출시킬 수 있습니다. 

지금까지 핑거프린트 기법의 전반적인 개념과 방법론부터 기대 효과까지 살펴봤습니다. 서드 파티 쿠키의 제한으로 디지털 업계에 위기가 찾아온 것은 사실입니다. 하지만 우리는 퍼스트 파티 데이터, 핑거프린트와 같은 새로운 대안을 찾고, 이를 활용해 위기를 어떻게 극복할 것인지 고민해야 합니다. 앞으로도 저희는 급변하는 디지털 시장에 발 빠르게 대처해 변화에 필요한 마케팅 인사이트와 전략을 지속적으로 공유할 예정이오니 꾸준한 관심으로 지켜봐 주시기 바랍니다.

▶ ‘다시 찾아온 퍼스트 파티 데이터의 시대’ 콘텐츠 보러 가기
▶ 변화에 필요한 마케팅 인사이트와 전략이 궁금하다면? 빅인에 문의하기

The post 서드 파티 쿠키의 제한, 리타깃팅 광고는 사라질까? appeared first on DIGITAL iNSIGHT 디지털 인사이트.

의견 0 신규등록      목록