아이티랩 - AI 합성 데이터, 연내 가이드라인 나올까

[지디넷코리아]

정부가 인공지능(AI) 경쟁력을 높이기 위해 합성데이터(Synthetic Data)를 활용하는 방안을 추진하고 있다. 현재 정부는 합성데이터가 익명 데이터로 인정받기 위한 기준 마련 작업을 진행하고 있다.

업계에서는 올해 안으로 정부의 가이드라인이 나올지 주목하고 있다.

합성데이터란 원본 데이터의 통계적 특성 및 분포와 표본을 이용해 만든 인공데이터다. 원본과 유사해 재현 데이터라고도 불린다.

특히 합성 데이터는 AI 학습데이터가 부족하거나, 개인정보 등을 포함하고 있어 접근하기 힘든 데이터를 대체하는 수단으로 유용하게 활용할 수 있다.

금융사들은 경쟁사나 다른 업권의 데이터를 얻기 어려운 만큼 금융권 AI의 범용성을 높이기 위해 합성데이터 활용이 필요하다고 주장한다. 반면 핀테크 업체들은 보유 데이터가 부족하기 때문에 AI 활용도를 높이기 위해선 합성데이터를 활용할 수 있어야 한다는 입장이다.

금융당국은 지난 5월 합성데이터 활용을 확대하겠다는 방침을 발표했다. 합성데이터가 익명 데이터 여부를 명확하게 해줄 가이드라인이 필요하다는 전제 하에서다. 금융위원회 금융데이터정책과 관계자는 "의견을 취합 중에 있으며 가이드라인을 내놓기 위해 최선을 다하고 있다"고 말했다.

하지만 합성 데이터 가이드라인이 연내 도출되기는 쉽지 않을 전망이다. AI에 대한 인식이 계속 조금 달라졌기 때문이다.

한 동안 AI가 업무 생산성 향상 등에 도움이 된다는 시각이 지배적이었다. 하지만 오픈AI 사태 이후 부정적인 측면이 부각되면서 AI에 대한 경계심리가 고개를 들고 있다. 이에 따라 정부 내에서도 신중론이 제기되고 있어 속도 조절 가능성도 적지 않은 상황이다.

가이드라인이 나오더라도 부처별로 합성데이터에 대한 연구 용역을 맡긴 상태라 활용 시기가 달라질 것으로 예상된다.

한국신용정보원은 익명성 판단 기준을 만족시키는 합성데이터를 개발한다는 계획이다. 합성 대상 데이터를 준비한 후 전 처리 과정을 거쳐, 합성데이터를 생성한다는 것이다.

합성데이터가 실제 데이터 특성을 나타내는지 데이터 유사성 및 활용 가능성 측면과 생성한 합성데이터로부터 원본데이가 노출될 위험이 있는지 데이터 평가도 거칠 예정이다.

의견 0 신규등록      목록