안녕하세요!
오늘은 데이터 레이크와 데이터웨어하우스에 대해 알아보려고 합니다.
데이터 레이크와 데이터 웨어하우스는 자주 비교되는 다른 방식의 데이터 관리 방법인데요.
두 방식 모두 기업에서 발생하는 데이터를 모아 한 곳에 데이터를 저장하는데 사용된다는 공통점이 있지만 구조적으로 다른 특징을 가지고 있습니다.

📢 데이터레이크란 무엇일까요?
레이크의 뜻은 호수를 의미하죠. 즉, 호수에 모든 데이터들이 저장된다는 의미를 갖고있습니다.
데이터 레이크의 목적은 발생하는 모든 데이터들을 한 곳에 일단 저장하는 것이 목적입니다.
그 데이터가 분석에 사용 될지 안 될지 모르지만 언젠간 사용할 날이 올 수 있기에 일단 저장하죠!
위에서 말씀드렸듯이 데이터웨어하우스도 데이터를 한 곳에 모아 저장하는데 데이터 레이크와 뭐가 다를까요?
바로 데이터 레이크는 다양한 구조의 데이터를 저장할 수 있다는 것입니다.
정형*, 반정형*, 비정형* 데이터를 비롯한 모든 데이터들을 저장할 수 있는 중앙 리포지토리*가 바로 데이터 레이크인거죠.
빅데이터의 90%는 비구조적 데이터 형태를 지니고 있다고 해요. 데이터레이크는 비구조적 형태의 데이터를 모두 저장할 수 있죠 😊
따라서, 데이터 레이크에는 소스로부터 발생한 데이터가 가공되지 않은 형태로 저장되며 그 데이터들을 원시 데이터 raw data라고 부릅니다.
데이터가 가공되지 않은 형태로 저장된다라는 말은 무슨 뜻일까요?
바로 데이터 레이크에서는 데이터를 저장하기 전 통합, 정제, 변환하지 않고 그대로 바로 저장합니다.
미리 정의된 목적이 없는 데이터들을 저장하는거죠 그렇기 때문에 즉시 데이터를 수집할 수 있고 유연하게 사용가능합니다.
이 점이 데이터웨어하우스와 가장 큰 차이점입니다. 밑에서 데이터웨어하우스에 대해 더 알아보겠습니다!
📕 용어정리
*정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트, 데이터베이스, 트랜잭션 시스템의 데이터 등
*반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등
*비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등
*리포지토리 : 정보를 모아 놓고 서로 공유할 수 있게 한 정보의 저장소, 데이터 집합체가 보관되고 조직적인 방식으로 유지되는 컴퓨터 저장장치 내의 주요 장소.

📢 데이터 웨어하우스란 무엇일까요?
데이터 웨어하우스는 기업이 다양한 데이터 소스에서 추출한 데이터를 통합하고, 정제하여 의사결정에 사용할 수 있는 형태로 변환하는 중앙 집중식 데이터 저장소입니다.
데이터 웨어하우스는 비즈니스 인텔리전스*(BI) 특히 분석을 활성화 및 지원하기 위해 설계된 데이터 관리 시스템의 한 유형입니다.
여기서 데이터 레이크와 차이점이 바로 보이시나요?!
데이터 웨어하우스는 미리 결정된 목적을 위해 비즈니스 애플리케이션에서 수집 및 생성하는 데이터의 저장소입니다. 데이터 웨어하우스는 저장 전 데이터에 미리 정의된 스키마*를 적용하며, 이 저장소에 저장하기 전에 데이터를 정리하고 구성해야 합니다.
데이터 웨어하우스에 데이터를 운영 시스템에서 추출하여 데이터를 요구사항에 맞게 가공한 후 데이터 웨어하우스에 적재하는 이 과정을 바로 ETL*이라고 합니다.
데이터 웨어하우스는 일반적으로 시간의 경과에 따라 데이터를 저장하므로, 과거 데이터와 현재 데이터의 히스토리를 추적할 수 있습니다.
과거 데이터를 분석할 수 있기에 기존 정보를 활용해 더 나은 정보를 제공할 수 있고 이러한 기능을 비즈니스 동향 및 패턴 분석, 예측 분석 등과 같은 고급 분석을 수행하는 데 유용합니다.
데이터 웨어하우스는 '분석'에 목적을 둔 방식입니다.
📕 용어정리
* 비즈니스 인텔리전스(business intelligence) : 조직이 데이터를 수집, 분석, 변환하여 통찰력 있는 정보를 도출하고 이를 활용하여 효과적인 비즈니스 의사 결정을 내리는 프로세스와 기술을 말합니다.
* 스키마(schema) : 정보를 통합하고 조직화하는 툴.
* ETL : Extract(추출), Transform(변환). Load(적재)하는 과정
데이터 레이크 VS 데이터 웨어하우스

데이터 웨어하우스는 미리 정해진 업무에 적합하도록 처리된 데이터의 저장소이며, 데이터를 특정 형식으로 체계화하여 비즈니스 사용자가 직접 시각화하고 접근하기 쉽게 관리하고자 할 때 유용한 개념입니다.
‘분석’하는 것이 주요 목적입니다.
반면에 데이터 레이크는 구조화된 데이터와 더불어 이미지나 로그 등 원시 형태의 데이터를 포함하여 관리함으로써, 정형 및 비정형의 모든 조직 데이터를 저장함으로서 데이터 웨어하우스보다 시간이 지남에 따라 훨씬 더 다양하고 유연한 활용이 가능하다고 할 수 있습니다.
나중에 분석을 하거나 분석을 안할지라도 일단 ‘저장’하는 것이 주요 목적입니다. 😄
클라우드 데이터웨어하우스인 스노우플레이크 게시글도 참고해주세요!
여기까지 데이터레이크와 데이터웨어하우스의 설명과 차이점을 알아보았는데요!
이해가 잘 되셨나요?? 다음에는 더 유용한 정보로 찾아오겠습니다.



안녕하세요!
오늘은 데이터 레이크와 데이터웨어하우스에 대해 알아보려고 합니다.
데이터 레이크와 데이터 웨어하우스는 자주 비교되는 다른 방식의 데이터 관리 방법인데요.
두 방식 모두 기업에서 발생하는 데이터를 모아 한 곳에 데이터를 저장하는데 사용된다는 공통점이 있지만 구조적으로 다른 특징을 가지고 있습니다.
📢 데이터레이크란 무엇일까요?
레이크의 뜻은 호수를 의미하죠. 즉, 호수에 모든 데이터들이 저장된다는 의미를 갖고있습니다.
데이터 레이크의 목적은 발생하는 모든 데이터들을 한 곳에 일단 저장하는 것이 목적입니다.
그 데이터가 분석에 사용 될지 안 될지 모르지만 언젠간 사용할 날이 올 수 있기에 일단 저장하죠!
위에서 말씀드렸듯이 데이터웨어하우스도 데이터를 한 곳에 모아 저장하는데 데이터 레이크와 뭐가 다를까요?
바로 데이터 레이크는 다양한 구조의 데이터를 저장할 수 있다는 것입니다.
정형*, 반정형*, 비정형* 데이터를 비롯한 모든 데이터들을 저장할 수 있는 중앙 리포지토리*가 바로 데이터 레이크인거죠.
빅데이터의 90%는 비구조적 데이터 형태를 지니고 있다고 해요. 데이터레이크는 비구조적 형태의 데이터를 모두 저장할 수 있죠 😊
따라서, 데이터 레이크에는 소스로부터 발생한 데이터가 가공되지 않은 형태로 저장되며 그 데이터들을 원시 데이터 raw data라고 부릅니다.
데이터가 가공되지 않은 형태로 저장된다라는 말은 무슨 뜻일까요?
바로 데이터 레이크에서는 데이터를 저장하기 전 통합, 정제, 변환하지 않고 그대로 바로 저장합니다.
미리 정의된 목적이 없는 데이터들을 저장하는거죠 그렇기 때문에 즉시 데이터를 수집할 수 있고 유연하게 사용가능합니다.
이 점이 데이터웨어하우스와 가장 큰 차이점입니다. 밑에서 데이터웨어하우스에 대해 더 알아보겠습니다!
📕 용어정리
*정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트, 데이터베이스, 트랜잭션 시스템의 데이터 등
*반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등
*비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등
*리포지토리 : 정보를 모아 놓고 서로 공유할 수 있게 한 정보의 저장소, 데이터 집합체가 보관되고 조직적인 방식으로 유지되는 컴퓨터 저장장치 내의 주요 장소.
📢 데이터 웨어하우스란 무엇일까요?
데이터 웨어하우스는 기업이 다양한 데이터 소스에서 추출한 데이터를 통합하고, 정제하여 의사결정에 사용할 수 있는 형태로 변환하는 중앙 집중식 데이터 저장소입니다.
데이터 웨어하우스는 비즈니스 인텔리전스*(BI) 특히 분석을 활성화 및 지원하기 위해 설계된 데이터 관리 시스템의 한 유형입니다.
여기서 데이터 레이크와 차이점이 바로 보이시나요?!
데이터 웨어하우스는 미리 결정된 목적을 위해 비즈니스 애플리케이션에서 수집 및 생성하는 데이터의 저장소입니다. 데이터 웨어하우스는 저장 전 데이터에 미리 정의된 스키마*를 적용하며, 이 저장소에 저장하기 전에 데이터를 정리하고 구성해야 합니다.
데이터 웨어하우스에 데이터를 운영 시스템에서 추출하여 데이터를 요구사항에 맞게 가공한 후 데이터 웨어하우스에 적재하는 이 과정을 바로 ETL*이라고 합니다.
데이터 웨어하우스는 일반적으로 시간의 경과에 따라 데이터를 저장하므로, 과거 데이터와 현재 데이터의 히스토리를 추적할 수 있습니다.
과거 데이터를 분석할 수 있기에 기존 정보를 활용해 더 나은 정보를 제공할 수 있고 이러한 기능을 비즈니스 동향 및 패턴 분석, 예측 분석 등과 같은 고급 분석을 수행하는 데 유용합니다.
데이터 웨어하우스는 '분석'에 목적을 둔 방식입니다.
📕 용어정리
* 비즈니스 인텔리전스(business intelligence) : 조직이 데이터를 수집, 분석, 변환하여 통찰력 있는 정보를 도출하고 이를 활용하여 효과적인 비즈니스 의사 결정을 내리는 프로세스와 기술을 말합니다.
* 스키마(schema) : 정보를 통합하고 조직화하는 툴.
* ETL : Extract(추출), Transform(변환). Load(적재)하는 과정
데이터 레이크 VS 데이터 웨어하우스
데이터 웨어하우스는 미리 정해진 업무에 적합하도록 처리된 데이터의 저장소이며, 데이터를 특정 형식으로 체계화하여 비즈니스 사용자가 직접 시각화하고 접근하기 쉽게 관리하고자 할 때 유용한 개념입니다.
‘분석’하는 것이 주요 목적입니다.
반면에 데이터 레이크는 구조화된 데이터와 더불어 이미지나 로그 등 원시 형태의 데이터를 포함하여 관리함으로써, 정형 및 비정형의 모든 조직 데이터를 저장함으로서 데이터 웨어하우스보다 시간이 지남에 따라 훨씬 더 다양하고 유연한 활용이 가능하다고 할 수 있습니다.
나중에 분석을 하거나 분석을 안할지라도 일단 ‘저장’하는 것이 주요 목적입니다. 😄
클라우드 데이터웨어하우스인 스노우플레이크 게시글도 참고해주세요!
여기까지 데이터레이크와 데이터웨어하우스의 설명과 차이점을 알아보았는데요!
이해가 잘 되셨나요?? 다음에는 더 유용한 정보로 찾아오겠습니다.