안녕하세요!
오늘은 저번 블로그를 보셨다면 DW에 데이터를 적재하는 과정을 보시고 ETL이 뭘까??라고 생각하셨던 분들을 위해 준비했습니다.
저번 블로그를 안 보셨다면 보고 오시면 더 이해가 빠르실 거에요😆
📢 E / T / L 의 약자에 대해서 먼저 설명드릴게요.
E(Extract, 추출)– 원본 데이터 베이스 또는 데이터 소스에서 데이터를 가져오는 것
- Database(NoSQL, SQL 상관X), XML, cloud platform, API 등 다양한 소스 가능
- ETL을 사용하면 데이터가 임시 스테이징 영역*으로 들어가고, ELT를 사용하면 즉시 데이터가 타겟하는 시스템에 이동하게 됩니다.
T(Transform, 변환)– 데이터의 구조를 변경하는 과정이며, 용도에 맞는 필터링, 정렬, 집계, 데이터 정리, 중복제거 등의 단계를 통해 필요한 형태로 변환하는 것
- DA(Data Analysis), BI(Business Intelligence), DS(Data Science) 등의 목적
L(Load, 적재)– 변환된 데이터를 타겟 시스템에 적재하는 것
- 타겟 시스템 : Data Lake, Data Warehouse, Lake House, Data Mart 등
위 그림과 같이 다양한 Data Sources(DB, CRM, ERP 등)에서 데이터를 Extract(추출/수집)하게 됩니다.
수집된 데이터들은 Staging Area로 보내지게 됩니다. Staging Area에서 일정한 형태 또는 요청된 형태로 Transform(변환) 작업이 수행됩니다.
최종적으로 Target Repository(Data Lake, Data Warehouse, Data Mart 등)로 Load(적재)가 됩니다.
이 과정이 ETL 프로세스입니다.
따라서 데이터를 분석하거나 사용하기 위해서는 필요한 데이터를 가져와서 변환(Transform) 단계를 거쳐 적재 해야합니다.
또한, rawdata 안에는 수많은 레거시 데이터*들이 있기 때문에 필터링하는 과정도 꼭 필요합니다.
그 단계가 바로 Transform 단계입니다.
따라서, ETL 프로세스에서는 중요 보안 데이터를 변환하여 개인정보 보호 규정을 준수하여 적재할 수 있습니다.
특히, 규정을 엄격히 따르는 기업들은 고객 개인 정보 보호를 위해 특정 데이터 필드를 제거, 마스킹 또는 암호화해야 하는 경우가 많습니다.
이러한 경우 ETL 프로세스에서 규정을 변환할 수 있기 때문에 더욱 안전하게 적재할 수 있습니다.
📌 ETL 장점
- 분석에 필요한 데이터들로만 적재되어 있기에 효율적이고 안정적인 데이터 분석이 가능하여 빠르고 효율적으로 데이터를 분석할 수 있습니다.
- 데이터를 로드하기 전, 중요 보안 데이터를 처리하여 개인정보 보호 규정을 준수할 수 있습니다.
- ETL 프로세스는 20년 이상 존재했기 때문에 잘 개발된 도구와 플랫폼과 경험이 많은 엔지니어가 많습니다.
📌 ETL 단점
- 높은 초기 비용
- 지속적인 유지 보수 필요
- 데이터의 양이 방대해짐에 따라 Transform 과정이 오래 걸림
ETL의 최강자 인포메티카 솔루션도 참고 부탁드립니다😉
📢 그럼 ELT는 뭐가 다를까요?
우선 보기에도 순서가 달라졌습니다. 변환->적재가 아닌 적재->변환으로 달라졌습니다.
E(Extract, 추출)– 원본 데이터 베이스 또는 데이터 소스에서 데이터를 가져오는 것
- ETL을 사용하면 데이터가 임시 스테이징 영역*으로 들어가고, ELT를 사용하면 즉시 타겟하는 시스템에 이동하게 됩니다.
L(Load, 적재)– 추출과 동시에 타겟하는 시스템에 우선 적재하는 것
- 타겟 시스템 : Data Lake, Data Warehouse, Lake House, Data Mart 등
T(Transform, 변환)– 적재 이후 목적에 따라 데이터 정비, 가공, 변환 등을 대부분 타겟하는 시스템 자체에서 수행
- 타겟 시스템 : Data Lake, Data Warehouse, Lake House, Data Mart 등
위 그림과 같이 이번에는 ETL 과 달리 먼저 모든 데이터 소스를 타겟하는 시스템으로 바로 적재한 뒤, 그 용도에 따라서 필요한 경우 툴이나 시스템에서 직접 변환하게 하는 과정이 바로 ELT입니다.
주로 클라우드 기반에서 사용되는데 Snowflake, Amazon Redshift, Google BigQuery 및 Microsoft Azure와 같은 클라우드 데이터 웨어하우스에서 ELT를 지원하기 위한 쉬운 tool들을 지원하고 있습니다.
아래의 저희 파트너사인 Snowflake에 관한 게시글도 참고해 주세요!
ETL 방식에서 ELT 방식으로 변화되기 시작한 이유가 무엇일까요?
이미지, 오디오 및 비디오와 같은 비정형 데이터의 사용이 증가함에 따라 방대한 데이터들을 변환하는데 시간이 많이 소요됩니다.
또한, 클라우드 컴퓨팅이 등장하면서 클라우드 데이터 레이크, 데이터 웨어하우스는 무제한 원시 데이터를 직접 로드할 수 있게 되었죠.
ELT는 일단 모든 데이터가 타켓 시스템에 적재되어있다는 가정하에 위와 같은 비효율을 개선할 수 있었고, 클라우드 데이터 웨어하우스가 많이 생겨나면서 점점 ELT 방식으로 변화되기 시작했습니다.
📌 ELT의 장점
- 적재 전 변환을 위한 단계가 없기 때문에 대규모의 데이터들을 빠르게 수집할 수 있습니다.
- 자동화된 작업으로 인한 유지 관리 최소화
📌 ELT의 단점
- 개인정보보호 규정 및 규정 준수 규칙에 문제의 가능성
- 보안에 취약하여 데이터를 암호화해야 하는 번거로움
📕 용어정리
*레거시데이터 : 지금까지 남아 쓰는 기술을 부르기도 하고, 더 이상 안쓰여도 현재 사용하는 기술에 영향을 주는 경우 (낡은 기술이나 방법론)
*스테이징 영역 : 데이터가 변환되기 전에 원시/처리되지 않은 데이터가 있는 영역을 말한다. 스테이징 영역은 데이터베이스의 테이블, 클라우드 스토리지 시스템의 파일 등이 될 수 있다.
*OLAP: Online Analytical Processing의 약자로 온라인 분석 처리 방식, 저장된 데이터를 바탕으로 분석을 하는 것에 중점을 둠.
이렇게 ETL 과 ELT는 서로 다른 방식으로 데이터 통합을 제공하기 때문에 가지고 있는 데이터가 어느 정도인지, 사용하는 스토리지 유형은 무엇인지, 비즈니스 요구사항 등을 파악하여 가장 적합한 솔루션을 선택할 수 있습니다.
여기까지 간단하게 알아보았는데요!
어떤 프로세스가 좋다라기보단 어떤 프로세스가 더 적합한지 파악하여 선택하는 것이 더 중요합니다!!
ETL, ELT 관련해서 상담이 필요하신 분들은 아래의 담당자로 연락 주시면 자세히 상담해 드리도록 하겠습니다!
안녕하세요!
오늘은 저번 블로그를 보셨다면 DW에 데이터를 적재하는 과정을 보시고 ETL이 뭘까??라고 생각하셨던 분들을 위해 준비했습니다.
저번 블로그를 안 보셨다면 보고 오시면 더 이해가 빠르실 거에요😆
📢 E / T / L 의 약자에 대해서 먼저 설명드릴게요.
E(Extract, 추출)– 원본 데이터 베이스 또는 데이터 소스에서 데이터를 가져오는 것
T(Transform, 변환)– 데이터의 구조를 변경하는 과정이며, 용도에 맞는 필터링, 정렬, 집계, 데이터 정리, 중복제거 등의 단계를 통해 필요한 형태로 변환하는 것
L(Load, 적재)– 변환된 데이터를 타겟 시스템에 적재하는 것
위 그림과 같이 다양한 Data Sources(DB, CRM, ERP 등)에서 데이터를 Extract(추출/수집)하게 됩니다.
수집된 데이터들은 Staging Area로 보내지게 됩니다. Staging Area에서 일정한 형태 또는 요청된 형태로 Transform(변환) 작업이 수행됩니다.
최종적으로 Target Repository(Data Lake, Data Warehouse, Data Mart 등)로 Load(적재)가 됩니다.
이 과정이 ETL 프로세스입니다.
따라서 데이터를 분석하거나 사용하기 위해서는 필요한 데이터를 가져와서 변환(Transform) 단계를 거쳐 적재 해야합니다.
또한, rawdata 안에는 수많은 레거시 데이터*들이 있기 때문에 필터링하는 과정도 꼭 필요합니다.
그 단계가 바로 Transform 단계입니다.
따라서, ETL 프로세스에서는 중요 보안 데이터를 변환하여 개인정보 보호 규정을 준수하여 적재할 수 있습니다.
특히, 규정을 엄격히 따르는 기업들은 고객 개인 정보 보호를 위해 특정 데이터 필드를 제거, 마스킹 또는 암호화해야 하는 경우가 많습니다.
이러한 경우 ETL 프로세스에서 규정을 변환할 수 있기 때문에 더욱 안전하게 적재할 수 있습니다.
📌 ETL 장점
📌 ETL 단점
ETL의 최강자 인포메티카 솔루션도 참고 부탁드립니다😉
📢 그럼 ELT는 뭐가 다를까요?
우선 보기에도 순서가 달라졌습니다. 변환->적재가 아닌 적재->변환으로 달라졌습니다.
E(Extract, 추출)– 원본 데이터 베이스 또는 데이터 소스에서 데이터를 가져오는 것
L(Load, 적재)– 추출과 동시에 타겟하는 시스템에 우선 적재하는 것
T(Transform, 변환)– 적재 이후 목적에 따라 데이터 정비, 가공, 변환 등을 대부분 타겟하는 시스템 자체에서 수행
위 그림과 같이 이번에는 ETL 과 달리 먼저 모든 데이터 소스를 타겟하는 시스템으로 바로 적재한 뒤, 그 용도에 따라서 필요한 경우 툴이나 시스템에서 직접 변환하게 하는 과정이 바로 ELT입니다.
주로 클라우드 기반에서 사용되는데 Snowflake, Amazon Redshift, Google BigQuery 및 Microsoft Azure와 같은 클라우드 데이터 웨어하우스에서 ELT를 지원하기 위한 쉬운 tool들을 지원하고 있습니다.
아래의 저희 파트너사인 Snowflake에 관한 게시글도 참고해 주세요!
ETL 방식에서 ELT 방식으로 변화되기 시작한 이유가 무엇일까요?
이미지, 오디오 및 비디오와 같은 비정형 데이터의 사용이 증가함에 따라 방대한 데이터들을 변환하는데 시간이 많이 소요됩니다.
또한, 클라우드 컴퓨팅이 등장하면서 클라우드 데이터 레이크, 데이터 웨어하우스는 무제한 원시 데이터를 직접 로드할 수 있게 되었죠.
ELT는 일단 모든 데이터가 타켓 시스템에 적재되어있다는 가정하에 위와 같은 비효율을 개선할 수 있었고, 클라우드 데이터 웨어하우스가 많이 생겨나면서 점점 ELT 방식으로 변화되기 시작했습니다.
📌 ELT의 장점
📌 ELT의 단점
📕 용어정리
*레거시데이터 : 지금까지 남아 쓰는 기술을 부르기도 하고, 더 이상 안쓰여도 현재 사용하는 기술에 영향을 주는 경우 (낡은 기술이나 방법론)
*스테이징 영역 : 데이터가 변환되기 전에 원시/처리되지 않은 데이터가 있는 영역을 말한다. 스테이징 영역은 데이터베이스의 테이블, 클라우드 스토리지 시스템의 파일 등이 될 수 있다.
*OLAP: Online Analytical Processing의 약자로 온라인 분석 처리 방식, 저장된 데이터를 바탕으로 분석을 하는 것에 중점을 둠.
이렇게 ETL 과 ELT는 서로 다른 방식으로 데이터 통합을 제공하기 때문에 가지고 있는 데이터가 어느 정도인지, 사용하는 스토리지 유형은 무엇인지, 비즈니스 요구사항 등을 파악하여 가장 적합한 솔루션을 선택할 수 있습니다.
여기까지 간단하게 알아보았는데요!
어떤 프로세스가 좋다라기보단 어떤 프로세스가 더 적합한지 파악하여 선택하는 것이 더 중요합니다!!
ETL, ELT 관련해서 상담이 필요하신 분들은 아래의 담당자로 연락 주시면 자세히 상담해 드리도록 하겠습니다!