링크드인, 메타데이터 관리도구 ‘웨어하우’ 오픈소스로 공개
링크드인이 오픈소스 데이터 분석 기술 ‘웨어하우’를 3월3일 공개했다. 데이터 분석할 때 필요한 메타데이터가 ‘어디에(Where)’에 있고 ‘어떻게(how)’ 찾을 수 있는지 알려주는 소프트웨어다.
웨어하우는 하둡분산 시스템, 하이브 데이터 웨어하우스, 테라데이터 등 다양한 데이터 시스템과 통합되며, 관련 메타데이터를 주기적으로 추출한다. 이를 이용하면 데이터 흐름을 시각화하고, 쉽게 탐색할 수 있으며 그래픽 UI나 API 형태로 이용할 수 있다. 실제 동작 환경은 다음과 같다.
링크드인은 “웨어하우를 이용해서 스키마 구조, 저장 위치, 수정 시간, 권한 정보 등 다양한 메타데이터를 얻어낼 수 있다”라며 “HDFS에서만 2만5천개 넘는 메타데이터 모음을 얻어냈으며, 아즈카반같은 오픈소스 스케줄러에서 15만개 넘는 흐름도를 추출하기도 했다”라고 설명했다. 웨어하우 뒷단 구조는 다음과 같다.
웨어하우는 아파치 라이선스 2.0으로 배포됐다. 자세한 원리와 설명은 깃허브 위키 페이지에서 볼 수 있다. 누구나 웨어하우 소스코드 개선에 기여할 수 있으며, 구글 그룹스로 웨어하우 개발자들과 토론할 수 있다. 더 많은 사람이 이용할 수 있도록 웨어하우 예제를 가상머신 이미지로 만들어놓기도 했다. 링크드인은 “앞으로 다양한 데이터와 관리도구를 통합해 메타데이터 범위를 넒히겠다”라고 밝혔다.