안녕하세요! 오늘은 지난번에 말씀드렸던 Data warehouse, Data Lake에 이어서 Data Lakehouse에 대해 말씀드리려고 합니다 😄
데이터 레이크하우스를 이해하려면 먼저 데이터 웨어하우스, 데이터 레이크의 개념을 알고 있으셔야 하는데요!
하기 블로그를 참고 해주시기바랍니다.

그래도 간단하게 설명드리자면ㅎㅎ
📢 데이터 웨어하우스
- 대량의 데이터를 구조화하여 저장
- 다중의 쿼리를 동시에 지원
- 한 번에 여러 사용자에게 결과값을 신속하게 전달
하지만 많은 기업들은 비정형 데이터 및 다양성, 속도, 볼륨이 높은 데이터를 처리해야합니다. 데이터 웨어하우스는 이러한 부분에서 지원하는 기능이 부족합니다.
그리하여 2010년 이후 데이터 레이크 가 등장합니다.😎
📢 데이터 레이크
- 가공되지 않은 정형, 반정형, 비정형 데이터를 한 곳에 모아 관리
- 즉시 데이터를 수집할 수 있고 유연하게 사용 가능
또한, 데이터 레이크 역시 몇 가지 기능이 부족했습니다.
제일 큰 단점은 보안과 ACID 트랜잭션*을 지원하지 않고, 데이터 품질을 보장할 수 없다는 것인데요. 일부 데이터에는 개인 정보 보호 및 규제가 필요하지만 데이터 레이크는 관리 감독 없이 저장하게 됩니다.
💡Data Lakehouse란?
데이터레이크하우스는 데이터레이크와 데이터 웨어하우스 두 기술을 상징하는 단어를 조합한 것입니다.
📢 데이터 레이크하우스
- 데이터 구조 및 관리 기능 그리고 전사 측면의 거버넌스 확보 방안을 제공하여 AI, ML, BI 모두 지원
- 다양한 유형의 데이터 지원과 소스 데이터에 직접 접근할 수 있는 기능성
데이터 웨어하우스는 데이터 레이크보다 성능이 뛰어난 경향이 있지만 비용이 더 많이 들고 확장 능력이 제한될 수 있습니다.
데이터 레이크하우스는 클라우드 객체 스토리지를 활용하여 더 광범위한 정형, 비정형, 반정형 데이터를 저장함으로써 데이터 웨어하우스의 문제를 해결할 수 있습니다.
또한, 데이터 레이크에서 지원하지 않았던 대규모 데이터 워크로드에 대한 ACID 트랜잭션도 지원합니다.
데이터 레이크 서비스와 데이터 웨어하우스 서비스를 별도로 이용하게 되면 여러가지 불편함이 나타납니다. 더 많은 비용과 시간이 소요되고 각 저장소 간 데이터를 이전할 시 지연이 발생합니다.
따라서 이 두 형태의 저장소를 단일 플랫폼으로 통합한것이 데이터 레이크하우스입니다. 각각의 단점을 보완해 관리 부담을 줄이고 활용 수준을 높일 수 있습니다. 결과적으로 데이터에서 인사이트가 추출되는 시간도 빨라집니다.
💡스노우플레이크 데이터 클라우드
스노우플레이크를 데이터 웨어하우스 기업이라고 생각하시는 분들이 많으실텐데요!
데이터 웨어하우스는 스노우플레이크의 사업 영역 중 하나입니다. 스노우플레이크는 데이터 웨어하우스 기업이 아닌 모든 데이터를 통합하는 매개체가 되는 것을 목표로 하는 데이터 클라우드 기업입니다.
스노우플레이크의 방향성을 엿볼 수 있는 것이 작년 출시한 ‘스노우파크’는 기존 자바, 파이썬 등 사용하는 프로그래밍 언어에 따라 클러스터를 분리해 사용해야 했는데, 스노우파크는 자바나 파이썬, 스칼라 등 다양한 언어를 하나의 플랫폼에서 지원할 수 있게 되었습니다.
고객은 스트림 및 작업, 디렉터리 테이블을 사용하여 지속적인 데이터 파이프라인을 구축하여 구조화되지 않은 데이터를 처리할 수 있습니다.
또한, 지난해 9월 인수한 애플리카의 생성 AI 기술로 구축한 LLM* ‘도큐먼트 AI’를 공개했는데요!
스노우플레이크의 도큐먼트 AI는 문서를 이해하고 비정형 데이터를 쉽고 빠르게 활용할 수 있습니다. 비정형 데이터를 지원하는 스노우플레이크의 빌트인 LLM인 ‘도큐먼트 AI’를 이용하면 자연어 처리를 통해 오류없이 문서에서 쉽게 인사이트를 추출할 수 있습니다.
스노우플레이크는 더 많은 유형의 비정형 데이터를 지원할 예정입니다.😎
하기 도큐먼트 AI 관련 동영상 및 스노우플레이크 서비스도 참고부탁드립니다.

여기까지 데이터 레이크하우스 및 스노우플레이크 서비스에 대하여 설명드렸습니다. 해당 내용 중 궁금하시거나 문의하실 내용이 있으시다면 언제든지 문의해주세요!


📕 용어정리
*정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트, 데이터베이스, 트랜잭션 시스템의 데이터 등
*반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등
*비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등
*ACID: 데이터베이스 내에서 일어나는 하나의 트랜잭션의 안전성을 보장하기 위해 필요한 성질 (원자성_Atomicity, 일관성_consistency, 독립성_lsolation, 지속성_Durability)
*트랜잭션: 하나의 작업을 수행하기 위해 필요한 데이터 베이스의 연산들을 모아놓은 것.
*LLM: Large Language Model , 대규모 텍스트 데이터를 사용하여 학습되는 인공 지능 모델로, 언어 이해와 생성 작업을 자동화하고 개선하는 데 사용 ex)GPT-3
안녕하세요! 오늘은 지난번에 말씀드렸던 Data warehouse, Data Lake에 이어서 Data Lakehouse에 대해 말씀드리려고 합니다 😄
데이터 레이크하우스를 이해하려면 먼저 데이터 웨어하우스, 데이터 레이크의 개념을 알고 있으셔야 하는데요!
하기 블로그를 참고 해주시기바랍니다.
그래도 간단하게 설명드리자면ㅎㅎ
📢 데이터 웨어하우스
- 대량의 데이터를 구조화하여 저장
- 다중의 쿼리를 동시에 지원
- 한 번에 여러 사용자에게 결과값을 신속하게 전달
하지만 많은 기업들은 비정형 데이터 및 다양성, 속도, 볼륨이 높은 데이터를 처리해야합니다. 데이터 웨어하우스는 이러한 부분에서 지원하는 기능이 부족합니다.
그리하여 2010년 이후 데이터 레이크 가 등장합니다.😎
📢 데이터 레이크
- 가공되지 않은 정형, 반정형, 비정형 데이터를 한 곳에 모아 관리
- 즉시 데이터를 수집할 수 있고 유연하게 사용 가능
또한, 데이터 레이크 역시 몇 가지 기능이 부족했습니다.
제일 큰 단점은 보안과 ACID 트랜잭션*을 지원하지 않고, 데이터 품질을 보장할 수 없다는 것인데요. 일부 데이터에는 개인 정보 보호 및 규제가 필요하지만 데이터 레이크는 관리 감독 없이 저장하게 됩니다.
💡Data Lakehouse란?
데이터레이크하우스는 데이터레이크와 데이터 웨어하우스 두 기술을 상징하는 단어를 조합한 것입니다.
📢 데이터 레이크하우스
- 데이터 구조 및 관리 기능 그리고 전사 측면의 거버넌스 확보 방안을 제공하여 AI, ML, BI 모두 지원
- 다양한 유형의 데이터 지원과 소스 데이터에 직접 접근할 수 있는 기능성
데이터 웨어하우스는 데이터 레이크보다 성능이 뛰어난 경향이 있지만 비용이 더 많이 들고 확장 능력이 제한될 수 있습니다.
데이터 레이크하우스는 클라우드 객체 스토리지를 활용하여 더 광범위한 정형, 비정형, 반정형 데이터를 저장함으로써 데이터 웨어하우스의 문제를 해결할 수 있습니다.
또한, 데이터 레이크에서 지원하지 않았던 대규모 데이터 워크로드에 대한 ACID 트랜잭션도 지원합니다.
데이터 레이크 서비스와 데이터 웨어하우스 서비스를 별도로 이용하게 되면 여러가지 불편함이 나타납니다. 더 많은 비용과 시간이 소요되고 각 저장소 간 데이터를 이전할 시 지연이 발생합니다.
따라서 이 두 형태의 저장소를 단일 플랫폼으로 통합한것이 데이터 레이크하우스입니다. 각각의 단점을 보완해 관리 부담을 줄이고 활용 수준을 높일 수 있습니다. 결과적으로 데이터에서 인사이트가 추출되는 시간도 빨라집니다.
💡스노우플레이크 데이터 클라우드
스노우플레이크를 데이터 웨어하우스 기업이라고 생각하시는 분들이 많으실텐데요!
데이터 웨어하우스는 스노우플레이크의 사업 영역 중 하나입니다. 스노우플레이크는 데이터 웨어하우스 기업이 아닌 모든 데이터를 통합하는 매개체가 되는 것을 목표로 하는 데이터 클라우드 기업입니다.
스노우플레이크의 방향성을 엿볼 수 있는 것이 작년 출시한 ‘스노우파크’는 기존 자바, 파이썬 등 사용하는 프로그래밍 언어에 따라 클러스터를 분리해 사용해야 했는데, 스노우파크는 자바나 파이썬, 스칼라 등 다양한 언어를 하나의 플랫폼에서 지원할 수 있게 되었습니다.
고객은 스트림 및 작업, 디렉터리 테이블을 사용하여 지속적인 데이터 파이프라인을 구축하여 구조화되지 않은 데이터를 처리할 수 있습니다.
또한, 지난해 9월 인수한 애플리카의 생성 AI 기술로 구축한 LLM* ‘도큐먼트 AI’를 공개했는데요!
스노우플레이크의 도큐먼트 AI는 문서를 이해하고 비정형 데이터를 쉽고 빠르게 활용할 수 있습니다. 비정형 데이터를 지원하는 스노우플레이크의 빌트인 LLM인 ‘도큐먼트 AI’를 이용하면 자연어 처리를 통해 오류없이 문서에서 쉽게 인사이트를 추출할 수 있습니다.
스노우플레이크는 더 많은 유형의 비정형 데이터를 지원할 예정입니다.😎
하기 도큐먼트 AI 관련 동영상 및 스노우플레이크 서비스도 참고부탁드립니다.
여기까지 데이터 레이크하우스 및 스노우플레이크 서비스에 대하여 설명드렸습니다. 해당 내용 중 궁금하시거나 문의하실 내용이 있으시다면 언제든지 문의해주세요!
📕 용어정리
*정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트, 데이터베이스, 트랜잭션 시스템의 데이터 등
*반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등
*비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등
*ACID: 데이터베이스 내에서 일어나는 하나의 트랜잭션의 안전성을 보장하기 위해 필요한 성질 (원자성_Atomicity, 일관성_consistency, 독립성_lsolation, 지속성_Durability)
*트랜잭션: 하나의 작업을 수행하기 위해 필요한 데이터 베이스의 연산들을 모아놓은 것.
*LLM: Large Language Model , 대규모 텍스트 데이터를 사용하여 학습되는 인공 지능 모델로, 언어 이해와 생성 작업을 자동화하고 개선하는 데 사용 ex)GPT-3