Pretrain Packag는 GeM2을 기반으로 고객사 전용 LLM 모델 구축 Appliance 제품입니다.
HPE KorLLM Appliance에 탑재된 AI 언어 모델인 GeM2은 안전성 문제를 해결하고 생성 결과의 정확성과 신뢰성을 높였으며, 한국어의 고유한 특성을 반영하여 한국어 특화 언어 모델이라는 차별성을 가지고 있습니다.
과제 지향적 LLM
태스크 맞춤형 instruction 생성 및 학습
검색 기반 모델과 결합한 생성형 기술로
환각 현상을 최소화한 다중 문서 요약 수행
데이터 요약 기능 및 각종 문서 작성 기능
향상을 위한 맞춤 instruction 학습
도메인 전문적 LLM
공공기관, 도서관, 행정 문서 등 다양한 전문 도메인의 데이터 학습
금융 도메인에 관련된 다량의 데이터 학습
텍스트 외 그래프, 표 등 경제/공공 부문 다양한 비정형 데이터 처리 및 이해 기능
향상
한국어 특화 LLM
한국어 특성을 반영한 독자적 instruction 생성 및 학습 (Wizard 방식)
거대 한국어 코퍼스 기반 튜닝
한국어의 모든 음절을 OOV 없이 강건하게 처리 가능한 BBPE tokenizer 기반 학습
강화학습 기반 LLM
사용자의 의도에 부합하는 답변 생성을 위한 instruction-following 모델습
사람의 피드백 점수를 reward model로 학습
유저 만족도 점수가 높은 출력을 생성하도록 policy model 최적화
GeM2(Pretrain Package) 소개
GeM2 Pretrain Package는 GeM2를 기반으로 고객사 전용 LLM 모델을 구축할 수 있는 Appliance 제품입니다.
HPE KorLLM Appliance에 탑재된 AI 언어 모델인 GeM2는 안전성 문제를 해결하고 생성 결과의 정확성과 신뢰성을 높였으며, 한국어의 고유한 특성을 반영하여 한국어 특화 언어 모델이라는 차별성을 가지고 있습니다.
과제 지향적 LLM
태스크 맞춤형 instruction 생성 및 학습
검색 기반 모델과 결합한 생성형 기술로 환각 현상을 최소화한 다중 문서 요약 수행
데이터 요약 기능 및 각종 문서 작성 기능 향상을 위한 맞춤 instruction 학습
도메인 전문적 LLM
공공기관, 도서관, 행정 문서 등 다양한 전문 도메인의 데이터 학습
금융 도메인에 관련된 다량의 데이터 학습
텍스트 외 그래프, 표 등 경제/공공 부문 다양한 비정형 데이터 처리 및 이해 기능 향상
한국어 특화 LLM
한국어 특성을 반영한 독자적 instruction 생성 및 학습 (Wizard 방식)
거대 한국어 코퍼스 기반 튜닝
한국어의 모든 음절을 OOV 없이 강건하게 처리 가능한 BBPE tokenizer 기반 학습
강화학습 기반 LLM
사용자의 의도에 부합하는 답변 생성을 위한 instruction-following 모델
사람의 피드백 점수를 reward model로 학습
유저 만족도 점수가 높은 출력을 생성하도록 policy model 최적화
HPE Pre-Training Package
구축 Flow
FM/LLM 선정
고객 도메인에 적합한 Foundation Model/Large Language Model을 선정하는 과정
데이터수집/전처리
고객 사전 Data 준비 사항에 따라 작업 내용, 전처리 작업 달라짐(도입 기간, 투입 M/M 결정 중요 요소)
최적화
준비된 전처리 Data 이용하여 학습 수행, 최적 Appliance H/W에 학습 결과 저장
Evaluate & Refine
AI Application 개발
구축된 AI 모델 활용 Application 개발 과정
서비스 구현
※ Appliance 도입 시 추가 고려 사항
- 보유(활용) 데이터, 데이터 범위/포멧/수량, 전처리, 데이터 증식, 지식검증, Pre-training/Fine-tuning 여부 등에 따라서 Appliance 도입 전체 일정 및 추가 공수 발생할 수 있습니다.
- 서비스 시나리오 기획, 검토 등 컨설팅은 무료로 제공합니다.
HPE GeM2 Pretrain Package 구축 Flow
FM/LLM 선정
고객 도메인에 적합한 Foundation Model/Large Language Model을 선정하는 과정
데이터수집/전처리
고객 사전 Data 준비 사항에 따라 작업 내용, 전처리 작업 달라짐(도입 기간, 투입 M/M 결정 중요 요소)
최적화
준비된 전처리 Data 이용하여 학습 수행, 최적 Appliance H/W에 학습 결과 저장
Evaluate & Refine
AI Application 개발
구축된 AI 모델 활용 Application 개발 과정
서비스 구현
※ Appliance 도입 시 추가 고려 사항
- 보유(활용) 데이터, 데이터 범위/포멧/수량, 전처리, 데이터 증식, 지식검증, Pre-training/Fine-tuning 여부 등에 따라서 Appliance 도입 전체 일정 및 추가 공수 발생할 수 있습니다. - 서비스 시나리오 기획, 검토 등 컨설팅은 무료로 제공합니다.