2024.04.28 (일)

프렌들리AI, 생성형 AI 모델 서빙 솔루션 ‘프렌들리 데디케이트 엔드포인트’ 출시



생성형 AI 서빙 서비스 기업 프렌들리AI가 자사 서비스 프렌들리 컨테이너(Friendli Container)의 기능을 SaaS로 제공하는 ‘프렌들리 데디케이트 엔드포인트(Friendli Dedicated Endpoints)’를 출시했다고 4일 밝혔다.


최근 프렌들리 스위트(Friendli Suite)에 통합된 이 서비스는 컨테이너를 직접 운영하는 부담을 제거하여 고객에게 고성능의 맞춤형 모델 서빙을 효율적인 비용으로 제공한다.


프렌들리 컨테이너는 현재 스타트업 및 대기업들이 자사의 GPU 환경에 대규모 언어 모델(LLM)을 배포하기 위해 사용하고 있는 서비스다. 자체 개발한 프렌들리 엔진(Friendli Engine)의 기능을 통해 GPU 비용을 크게 절감한다.


해당 엔진은 GPU에 최적화되어 있으며, 이번에 출시된 프렌들리 데디케이트 엔드포인트에도 활용됐다. 프렌들리 엔진 적용으로 라마2(Llama 2), 믹스트랄(Mixtral) 모델 등 맞춤형 대형 언어 모델을 서비스하는데 뛰어난 성능을 자랑한다.


프렌들리 데디케이트 엔드포인트는 자동화를 통해 대형 언어 모델을 만들고 서빙하는 프로세스를 간소화했다. 클라우드 기반 환경에서 모델 맞춤형 미세 조정(fine-tuning)부터 모델 배포 및 자동 모니터링까지 생성형 AI모델을 사용하기 위한 중요한 과정들을 담당한다.


특장점은 타 솔루션 대비 우수한 비용 효율성이다. 프렌들리 엔진이 탑재된 1개 GPU는 vLLM이 탑재된 최대 7개의 GPU에 해당하는 성능을 제공한다. 그 결과 GPU 비용을 90%까지 절감할 수 있으며, 최대 10배 빠른 쿼리 응답시간을 제공해 생성 AI 작업의 효율성과 생산성을 극대화한다.


오퍼레이션 기능이 보다 지능적으로 업데이트된 것도 눈여겨볼 점이다. 오토 스케일링(Autoscaling) 및 오류 관리로 변동하는 상황에 맞춰 원활하게 적응하고, 트래픽 패턴에 따라 리소스 할당을 지능적으로 조정한다. 또한 맞춤형 생성 AI 모델 서빙을 위한 전용 GPU 인스턴스를 제공함으로써 지속적이고 안정적인 서빙을 보장한다. 이를 통해 중단 없는 운영 및 최대의 리소스 효율성을 확보할 수 있다.


프렌들리AI의 전병곤 대표는 “프렌들리 데디케이트 엔드포인트는 개발자가 인프라 관리의 번거로움 없이 프렌들리 엔진의 강력한 성능을 통해 생성형 AI의 잠재력을 최대한 활용할 수 있도록 지원하는 솔루션”이라며, “프렌들리 서비스는 다양한 생성형 AI의 활용 분야에서 무한한 가능성의 문을 열어준다"라고 전했다.

관련기사