안녕하세요!
최근 데이터에 관한 관심도가 높아지면서, 데이터 플랫폼은 무엇이고 회사에서 데이터 활용은 어떻게 하면 좋을지에 대한 궁금증이 있을 것이라고 생각합니다!
해당 블로그를 통해 데이터 플랫폼은 어떤 역할을 하며, 안에 어떤 애플리케이션들이 있는 지에 대해 소개해드리겠습니다!
우선은 데이터 애플리케이션에 대해 말씀드리겠습니다.
다음의 그림은 데이터 관련 애플리케이션들의 종류를 나타낸 것인데요!

출처: CNCF Landscape
한눈에 봐도 정말 많은 애플리케이션들이 존재하고 있습니다! 저 모든 오픈소스들을 전부 알 수도 없고 공부하기도 힘듭니다 😪😪
만약 회사에서 데이터 플랫폼을 도입한다고 하면, 이 중에서 필요한 아이들만 추려내야 하는데 해당 과정이 상당히 험난하리라는 것을 예상할 수 있습니다!! 😑
이 때문에 어떤 오픈소스들이 존재하는지 파악하고 필요한 오픈소스들을 골라 사용하는 능력이 필요합니다!
여기서 잠깐!!!
HPE에서도 범용적인 오픈소스를 모아둔 Ezmeral DataFabric이라는 데이터 플랫폼이 존재합니다!!
DataFabric에 대해 자세히 설명하기 전에 데이터 플랫폼이 활용되는 방식을 예를 들어 설명드리겠습니다~
예를 들어 택배 회사를 생각해 보세요~
택배 회사는 매일 수십만 건의 택배를 처리하게 됩니다! 이런 방대한 양의 데이터를 처리 및 관리하기 위해서는 적절한 데이터 플랫폼이 필요해요!
더 자세하게 차례대로 살펴보겠습니다.
- 택배 회사는 매일 발생하는 택배 정보, 고객 정보, 운송 정보 등의 많은 정보를 안전하게 저장해야 해요. 이러기 위해서는 대용량 데이터를 안정적으로 저장할 수 있는 데이터베이스가 필요합니다!
- 데이터를 일단 모았으면, 해당 데이터를 분석하기 전에 처리하는 과정이 필요해요! 이 과정에서 중복된 데이터를 제거하고, 오류를 수정하는 등의 작업이 이루어집니다.
- 데이터를 저장하고 처리한 후에는 이를 분석하여 유의미한 인사이트를 도출해야 합니다! 이를 위해 BI(Business Intelligence) 툴을 사용하고 있어요. 예를 들어 택배량, 배송 시간, 지역별 배송 현황 등의 데이터를 BI 툴로 시각화하고 분석하여, 택배 회사는 효율적인 운영을 할 수 있게 됩니다!!
앞서 데이터 플랫폼을 사용해야 하는 이유를 설명드렸는데요 😁
해당 예시는 HPE Ezmeral DataFabric으로 실행할 수 있습니다!!
HPE Ezmeral DataFabric에 있는 오픈소스들을 간략히 소개해드리겠습니다~!
먼저 데이터를 모으는 것 부터 시작해야겠죠?! 데이터를 수집하는 도구로는 Nifi, 그리고 이메일같이 실시간으로 들어오는 데이터를 수집할 수 있는 Kafka가 존재합니다.
데이터를 수집하였으면 저장할 공간도 필요하겠죠? 그때 사용하는 도구가 Hadoop과 HBase입니다! 일종의 스토리지라고 생각하시면 됩니다.
수백개의 행과 열이 있는 엑셀 시트를 상상해보세요! 원하는 데이터를 뽑기 위해서는 일반적으로 필터를 걸듯이 데이터 세상에서도 이와 비슷한 방식이 있습니다~ 바로 쿼리라고 하는데요!! DataFabric에서는 Drill, Hive 등의 쿼리 도구가 있습니다.
또한, 원하는 데이터를 만들기 위해서 데이터를 처리하는 도구인 Spark가 존재합니다!
데이터를 항상 수동으로 처리하기에는 번거로운 작업이 될 수 있으니, 이를 자동화해주는 Airflow가 있습니다~
이런 데이터 처리 작업을 마친 후 시각적으로 데이터를 볼 수 있으면 데이터를 파악하기도 편하겠죠?! 데이터 시각화 솔루션인 Grafana, Kibana 등이 있습니다!
위에서 설명드린 것 이외에도 DataFabric에는 다양한 솔루션이 존재합니다~~~^0^
(더 자세한 설명 궁금하신 분들은 맨 아래 표 참고 부탁드려요!)
위에 나온 애플리케이션들 설명이 너무 어렵죠?!
좀 더 쉬운 이해를 돕기 위해 구체적인 예시를 들어보겠습니다~💭
1. 고객 서비스 개선
택배 회사는 고객한테 피드백을 받아보고 처리하길 원할 것입니다!
그러기 위해서는 다양한 채널의 피드백(온라인 리뷰, SNS, 고객센터 등)의 데이터를 실시간으로 받아보고, 처리하는 과정이 중요합니다.

- 먼저 DataFabric의 Kafka를 통해 실시간으로 들어오는 고객 피드백 데이터를 수집합니다.
- 그다음 DataFabric의 Nifi를 통해 Kafka에서 들어온 데이터를 Hadoop에 저장합니다!
- 저장한 데이터를 DataFabric의 Spark를 활용하여 실시간으로 피드백 분석을 실행합니다. 이를 통해 고객의 불만 사항을 신속하게 식별할 수 있어요!
2. 배송 시간 예측
택배 회사는 과거의 배송 데이터를 통해 배송 시간을 예측하길 원합니다!
정확한 배송 시간을 예측하여 고객의 만족도를 높이는 것이 중요하기 때문이죠.
구체적인 워크플로우는 다음 그림을 통해 확인해 볼 수 있습니다~

- 택배 회사는 배송 지역, 시간대, 현재 배송량 등의 택배 데이터를 수집합니다.
- DataFabric의 Hadoop, Hbase를 이용하여 데이터를 저장합니다.
- 저장된 데이터를 DataFabric의 Spark, Hive를 활용하여 데이터를 처리하고, 머신러닝을 통해 정확한 배송 시간을 예측할 수 있습니다. 이를 통해 고객한테 더욱 정확한 배송 예정 시간을 알려 고객 만족도를 높일 수 있어요~
- 마지막으로 사용하기 쉽도록 처리된 데이터를 DataFabric의 Grafana, Kibana 등을 활용하여 데이터를 시각화할 수 있어요!!
제가 앞서 설명해 드린 두 가지 예시처럼 HPE Ezmeral DataFabric을 사용하면 더욱더 쉽게 데이터를 관리하고 이를 통해 인사이트를 발굴할 수 있습니다!
HPE Ezmeral DataFabric을 활용하여 더 편리한 데이터 플랫폼 경험을 해보세요~👍
** 참고 표
| Ecosystem 명 | 용도 |
| Apache Kafka Schema Registry | 스키마를 관리하고 데이터의 일관성을 유지하여 데이터 소스로부터 데이터를 수집합니다. |
| NiFi | 데이터 수집, 처리, 전송, 보안 등을 관리하여 다양한 소스로부터 데이터를 추출하고 처리합니다. |
| Airflow | 워크플로우 생성 및 관리를 통해 자동화를 하는데 사용합니다. |
| Apache Kafka Tools | Kafka 클러스터를 관리하고 데이터를 이동하는데 사용됩니다. |
| Apache Kafka Client for Event Store | Apache Kafka를 이벤트 스토어로 사용하기 위한 클라이언트 라이브러리입니다. |
| Binary Database | HDFS에 저장된 데이터를 기반으로 하는 NoSQL 데이터베이스입니다. |
| HBase | 대용량의 구조화된 데이터를 저장하고 처리하는 데 사용되는 분산형 NoSQL 데이터베이스입니다. |
| Hive Metastore | Hive에서 사용하는 테이블, 파티션 등의 메타데이터를 저장하고 관리합니다. |
| Drill | 다양한 데이터 소스에서 SQL을 사용하여 비정형 데이터를 쿼리하고 분석합니다. |
| Drill-YARN | Apache Drill을 YARN 클러스터에서 분산 실행하기 위한 관리 도구입니다. |
| Hive | SQL 기반의 쿼리를 사용하여 데이터를 처리하고 분석합니다. |
| Spark | 대규모 데이터 처리, 머신 러닝, 스트리밍 처리 등 다양한 작업을 수행하는 클러스터 컴퓨팅 프레임워크입니다. |
| Tez | 하둡 클러스터에서 데이터 처리 작업의 성능을 최적화하는데 사용되는 실행 엔진입니다. |
| YARN_MapReduce | YARN 클러스터에서 MapReduce 작업을 실행하기 위한 컴포넌트입니다. |
| Hue | Hadoop 생태계의 다양한 도구들을 웹 기반 인터페이스로 제공하여 데이터를 쿼리, 시각화 및 분석합니다. |
| Zeppelin | 웹 기반 노트북 인터페이스를 제공하여 대화형 데이터 분석과 시각화를 수행하는 도구입니다. |

안녕하세요!
최근 데이터에 관한 관심도가 높아지면서, 데이터 플랫폼은 무엇이고 회사에서 데이터 활용은 어떻게 하면 좋을지에 대한 궁금증이 있을 것이라고 생각합니다!
해당 블로그를 통해 데이터 플랫폼은 어떤 역할을 하며, 안에 어떤 애플리케이션들이 있는 지에 대해 소개해드리겠습니다!
우선은 데이터 애플리케이션에 대해 말씀드리겠습니다.
다음의 그림은 데이터 관련 애플리케이션들의 종류를 나타낸 것인데요!
출처: CNCF Landscape
한눈에 봐도 정말 많은 애플리케이션들이 존재하고 있습니다! 저 모든 오픈소스들을 전부 알 수도 없고 공부하기도 힘듭니다 😪😪
만약 회사에서 데이터 플랫폼을 도입한다고 하면, 이 중에서 필요한 아이들만 추려내야 하는데 해당 과정이 상당히 험난하리라는 것을 예상할 수 있습니다!! 😑
이 때문에 어떤 오픈소스들이 존재하는지 파악하고 필요한 오픈소스들을 골라 사용하는 능력이 필요합니다!
여기서 잠깐!!!
HPE에서도 범용적인 오픈소스를 모아둔 Ezmeral DataFabric이라는 데이터 플랫폼이 존재합니다!!
DataFabric에 대해 자세히 설명하기 전에 데이터 플랫폼이 활용되는 방식을 예를 들어 설명드리겠습니다~
예를 들어 택배 회사를 생각해 보세요~
택배 회사는 매일 수십만 건의 택배를 처리하게 됩니다! 이런 방대한 양의 데이터를 처리 및 관리하기 위해서는 적절한 데이터 플랫폼이 필요해요!
더 자세하게 차례대로 살펴보겠습니다.
앞서 데이터 플랫폼을 사용해야 하는 이유를 설명드렸는데요 😁
해당 예시는 HPE Ezmeral DataFabric으로 실행할 수 있습니다!!
HPE Ezmeral DataFabric에 있는 오픈소스들을 간략히 소개해드리겠습니다~!
먼저 데이터를 모으는 것 부터 시작해야겠죠?! 데이터를 수집하는 도구로는 Nifi, 그리고 이메일같이 실시간으로 들어오는 데이터를 수집할 수 있는 Kafka가 존재합니다.
데이터를 수집하였으면 저장할 공간도 필요하겠죠? 그때 사용하는 도구가 Hadoop과 HBase입니다! 일종의 스토리지라고 생각하시면 됩니다.
수백개의 행과 열이 있는 엑셀 시트를 상상해보세요! 원하는 데이터를 뽑기 위해서는 일반적으로 필터를 걸듯이 데이터 세상에서도 이와 비슷한 방식이 있습니다~ 바로 쿼리라고 하는데요!! DataFabric에서는 Drill, Hive 등의 쿼리 도구가 있습니다.
또한, 원하는 데이터를 만들기 위해서 데이터를 처리하는 도구인 Spark가 존재합니다!
데이터를 항상 수동으로 처리하기에는 번거로운 작업이 될 수 있으니, 이를 자동화해주는 Airflow가 있습니다~
이런 데이터 처리 작업을 마친 후 시각적으로 데이터를 볼 수 있으면 데이터를 파악하기도 편하겠죠?! 데이터 시각화 솔루션인 Grafana, Kibana 등이 있습니다!
위에서 설명드린 것 이외에도 DataFabric에는 다양한 솔루션이 존재합니다~~~^0^
(더 자세한 설명 궁금하신 분들은 맨 아래 표 참고 부탁드려요!)
위에 나온 애플리케이션들 설명이 너무 어렵죠?!
좀 더 쉬운 이해를 돕기 위해 구체적인 예시를 들어보겠습니다~💭
1. 고객 서비스 개선
택배 회사는 고객한테 피드백을 받아보고 처리하길 원할 것입니다!
그러기 위해서는 다양한 채널의 피드백(온라인 리뷰, SNS, 고객센터 등)의 데이터를 실시간으로 받아보고, 처리하는 과정이 중요합니다.
2. 배송 시간 예측
택배 회사는 과거의 배송 데이터를 통해 배송 시간을 예측하길 원합니다!
정확한 배송 시간을 예측하여 고객의 만족도를 높이는 것이 중요하기 때문이죠.
구체적인 워크플로우는 다음 그림을 통해 확인해 볼 수 있습니다~
제가 앞서 설명해 드린 두 가지 예시처럼 HPE Ezmeral DataFabric을 사용하면 더욱더 쉽게 데이터를 관리하고 이를 통해 인사이트를 발굴할 수 있습니다!
HPE Ezmeral DataFabric을 활용하여 더 편리한 데이터 플랫폼 경험을 해보세요~👍
** 참고 표