HPE 의 MLOps 플랫폼, HPE Ezmeral Unified Analytics (Ezmeral UA)

강주희
2024-03-20
조회수 1456


안녕하세요 😇


머신러닝이 대세인 요즘!!!!! HPE 에 머신러닝을 위한 제품이 있다는 것을 알고 계신가요?!

바로 HPE Ezmeral Unified Analytics (Ezmeral UA) 입니다 👏👏👏


먼저, 머신러닝이 무엇인지 간단히 설명해 드릴게요~~

머신러닝은 컴퓨터가 학습을 통해 스스로 성능을 향상시키는 인공지능(AI) 의 한 분야입니다.

머신러닝은 데이터를 통해 패턴을 찾고, 이러한 패턴을 사용하여 미래의 데이터나 상황에 대한 예측을 만드는 것이 주요 목표입니다!!

예를 들어, 과거의 날씨 데이터를 학습하여 미래의 날씨를 예측하거나, 고객의 구매 이력을 분석하여 고객이 관심을 가질 수 있는 상품을 추천하는 등의 작업이 가능합니다~


HPE Ezmeral 제품군은 크게 3가지로 나뉘는데요.

첫 번째, HPE Ezmeral Runtime Enterprise

두 번째, HPE Ezmeral DataFabric

마지막으로, HPE Ezmeral Unified Analytics 가 있습니다.


오늘은 이 세가지 제품군 중 머신러닝에 특화된 Ezmeral Unified Analytics 에 대해 설명하도록 하겠습니다. 😉 


Ezmeral Unified Analytics 는 MLOPS 플랫폼입니다.

MLOps 란 Machine Learning Operations 의 줄임말로, 머신러닝 모델을 구축하고, 배포하고, 운영하는 전반적인 프로세스를 지칭합니다.


Ezmeral Unified Analytics 를 한마디로 설명하자면 ‘머신러닝을 위한 오픈소스들이 모여있는 제품’ 입니다. 즉, 머신러닝과 관련된 오픈소스들이 모여있는 ‘오픈소스 플랫폼’ 이다~ 라고 말할 수 있습니다!!

이 세상에 수많은 오픈소스 중 HPE 가 서로 간의 조합을 생각하여 분야 별로 한 가지씩 pick! 하여 한 곳에 모아두었습니다.


이해하기 쉽도록 Ezmeral Unified Analytics 를 여행사에 비유해서 설명해볼까요?!


요즘 해외여행 많이 가시죠? ✈️ 💺

여행을 계획하고 준비하는 것은 복잡하고 어려운 작업이 될 수 있습니다! 😫


비행기 표를 예약하고.. 호텔을 찾고.. 관광지를 선택하고.. 이동 수단을 정하는 등 많은 것들을 동시에 관리해야 합니다. 그리고 이 모든 것들을 각각 다른 웹사이트에서 결제하게 되면 관리할 포인트가 많아지게 되죠!!


그러나 여행사를 이용하면 이 모든 과정을 한 번에 해결할 수 있습니다!!

이와 비슷하게 Ezmeral Unified Analytics 를 이용하면 머신러닝 구축을 위한 여러 오픈소스를 훨씬 간편하게 관리할 수 있습니다.


일반적으로 머신러닝을 구축하기 위해서는 여러 오픈소스를 각각 설치해야 하고 별도로 관리를 해야 하므로 관리 포인트들이 늘어나게 됩니다.

하지만 Ezmeral Unified Analytics 를 이용하면 이러한 복잡성을 크게 줄일 수 있어요~!

Ezmeral Unified Analytics 는 머신러닝 구축에 필요한 오픈소스들을 한 번에 설치하고, 한 곳에서 관리할 수 있게 해줍니다.


또한, 여행을 준비하면서 생길 수 있는 여러 보안 문제 (ex. 신용카드 정보 도용, 개인 정보 유출 등) 도 여행사를 통해 해결할 수 있습니다. 여행사는 이런 보안 문제를 대신 관리해주므로, 여행객은 안전하게 여행을 즐길 수 있습니다. 


Ezmeral Unified Analytics 역시 이와 유사하게 여러 오픈소스를 사용하면서 생길 수 있는 인증과 권한 문제를 해결할 수 있습니다!!


그래서! Ezmeral Unified Analytics 에 어떤 오픈소스들이 깔려있는지 궁금하시죠?!

Ezmeral Unified Analytics 에 설치되어있는 대표적인 오픈소스들을 분야별로 나눠보았습니다.


2c3fb0dad5468.png


Data Engineering, Analytics, Data Science 각 분야에 대해 간략히 설명해 드릴게요!

Data Engineering 은 대용량의 데이터를 효율적으로 관리하고 처리하는 과정에 중점을 두었고, 

Analytics 는 수집된 데이터를 이해하고 그 안에서 유용한 정보를 추출하는 과정에 중점을 두었습니다. 

마지막으로 Data Science 는 이전 단계에서 얻은 데이터를 이용하여 예측 모델을 만들고 최적의 솔루션을 도출하는 과정에 중점을 두었습니다~~


그렇다면 이 오픈소스들을 어떻게 조합하여 활용하면 되는지 몇 가지 예시로 보여드릴게요~!

여러 가지 오픈소스를 이런 식으로 조합하여 머신러닝을 할 수 있겠구나~ 만 보시면 될 것 같습니다. 😊


첫 번째 예시로, MNIST 라는 손으로 쓴 숫자 이미지로 이루어진 데이터베이스를 이용한 숫자 인식 워크플로우를 설명해 드리도록 하겠습니다. 


우리가 손으로 쓴 숫자를 인식하는 과정을 어디에 활용할 수 있을까요??

예를 들어, 손으로 쓴 장부가 있는데 이를 데이터화 하기가 매우 귀찮은 작업이 될 수 있습니다.

이때 이 과정을 통해 숫자를 인식하여 데이터화 해준다면 굉장히 도움이 될 수 있겠죠~


d4954b25e0726.png


Ezmeral Unified Analytics 에 포함된 어플리케이션을 이용해 해당 작업을 수행할 수 있습니다. 


1. 우선, 손으로 쓴 숫자들이 담긴 장부의 페이지들을 스캔하거나 사진으로 찍어서 이미지 파일로 만들어야겠죠?

그 후 이 이미지 파일들을 MinIO 라는 내장된 Object Storage 에 저장합니다. 

MinIO 는 데이터를 안전하게 보관하고, 필요할 때 쉽게 접근할 수 있게 해줍니다!!


2. 데이터를 저장했으면 이 데이터를 이용하여 처리하는 과정이 있어야 해요~!

Airflow 라는 워크플로우 툴을 사용하여 이미지 파일들을 처리할 Spark Application 을 생성하고 실행합니다. 

Airflow 를 이용하면 매번 수동으로 해야 하는 작업을 편리하게 만들어줘요!!

Airflow 는 이 과정을 자동으로, 그리고 정기적으로 실행할 수 있게 해주어 새로운 이미지 파일이 추가될 때마다 자동으로 처리될 수 있게 해줍니다~


3. 이번에는 컴퓨터가 처리하기 쉬운 파일 형태로 변환하는 작업을 해줄 거예요. 

Spark 는 MinIO 에서 이미지 파일들을 가져와서, 이 파일들을 컴퓨터가 더 쉽게 처리할 수 있는 형태인 Parquet 파일로 변환합니다. 

이 과정에서 이미지 픽셀값들이 Parquet 파일의 데이터로 변환되어 머신러닝 모델이 이해하기 쉬운 형태로 바뀝니다~


4. 변환된 Parquet 파일을 Jupyter Notebook 으로 가져와 데이터를 이용하여 MNIST 숫자 인식 모델을 트레이닝합니다. 

여기서 Jupyter Notebook 은 노트를 작성하듯이 컴퓨터에서 코드를 작성하고 실행해보면서 바로 결과를 볼 수 있는 환경을 제공해줍니다! 


5. 마지막으로, Kubeflow 를 이용하여 이미지 저장부터 모델 트레이닝 까지의 전체 과정을 자동화하는 파이프라인을 생성합니다. 


위 과정을 통해 손으로 쓴 숫자들이 담긴 장부는 컴퓨터가 이해할 수 있는 데이터로 변환되고, 이 데이터를 기반으로 숫자 인식 모델을 트레이닝하여 최종적으로 컴퓨터가 손으로 쓴 숫자를 인식할 수 있게 됩니다!!


f9fbd20926f84.png


실제로 해당 과정을 거치면 보시는 거와 같이 손글씨 ‘9’를 넣었을 때 숫자 ‘9’로 인식한 것을 확인하실 수 있습니다!!


또 다른 예시를 들어볼까요?

데이터 시각화 BI 툴인 Superset 을 이용한 코로나 감염자 대시보드 시나리오입니다.

복잡한 데이터를 한눈에 볼 수 있다면 내용을 파악하기 쉽겠죠? Superset 을 이용하면 가능합니다!!


1f9f466091f57.png


마찬가지로 Ezmeral 을 이용해 해당 작업을 수행할 수 있어요~


1. 저장소 역할인 DataFabric 의 MySQL 데이터베이스를 사용해 코로나 관련 데이터를 저장합니다. 

MySQL 은 인기 있는 관계형 데이터베이스 관리 시스템이며, 코로나 데이터에는 감염자 수, 회복자 수, 사망자 수 등의 정보가 포함될 수 있어요!


2. Unified Analytics 에 DataFabric 라는 저장소를 연동시킵니다. 

이 과정을 통해 Unified Analytics 에서 DataFabric 에 저장된 데이터를 접근할 수 있게 되죠! 


3. EzPresto 는 데이터 분석을 위해 복잡한 데이터 처리 작업을 쉽게 할 수 있도록 도와주는 도구입니다.

 EzPresto 를 사용하여 DataFabric 에 저장된 데이터에 대한 쿼리(Query)를 실행합니다. 

여기서 쿼리란 데이터베이스에 정보를 요청하는 것을 의미해요!! 즉, 이를 통해 필요한 데이터를 추출하고 분석할 수 있어요~


4. 데이터 쿼리 작업을 마친 후, 그 결과를 데이터 시각화 툴인 Superset 에 연동합니다. 

Superset은 사용자가 데이터를 시각적으로 탐색하고, 다양한 차트와 대시보드를 만들 수 있게 해주는 오픈 소스 BI 툴입니다!


5. Superset에서 코로나 감염자 데이터를 기반으로 차트를 생성하고 대시보드를 구성합니다. 

예를 들어, 시간에 따른 감염자 수 변화, 지역별 감염자 분포 등의 정보를 시각적으로 표현할 수 있어요~

이렇게 만들어진 대시보드를 통해 코로나 감염자 현황을 실시간으로 모니터링하고, 필요한 분석을 신속하게 수행할 수 있습니다~!


간단히 말해, 이 과정은 코로나 데이터를 관리하고 분석하여 시각화하는 일련의 단계를 거치는 것입니다!

이를 통해, 데이터의 가치를 최대한 활용하여 코로나 감염자 현황을 더 잘 이해하고 대응할 수 있습니다.


c37d3e834c16c.png


보시는 거와 같이 복잡한 데이터를 Superset 을 이용하여 한눈에 보기 쉽게 만들어 주었습니다!! 


예시를 들었던 것처럼 HPE Ezmeral Unified Analytics 에 내장된 오픈소스들을 조합하여 더욱 쉽게 머신러닝을 경험해보시면 좋겠습니다 😍😍




ca5ccc5f1bc2d.png


     

이용약관 ㅣ 개인정보취급방침 ㅣ 마케팅활용동의

동국시스템즈 ㅣ 주소: (04539)서울특별시 중구 을지로5길 19 페럼타워 9층  대표이사: 김오련

사업자등록번호: 102-81-42611  전화: 02) 2101-0900  팩스: 02) 3789-8780 Copyright 2020 DONGKUK SYSTEMS  All rights reserved