스노우플레이크 AI 리서치팀이 오픈소스 커뮤니티와 협업으로 초거대 LLM 추론 및 파인튜닝 시스템 스택을 출시했다. 이를 바탕으로 라마(Llama) 3.1 405B와 같은 수천억 개의 매개변수 모델에 필요한 오픈소스 추론 및 파인튜닝 시스템용 최첨단 솔루션을 구축한다
서울--(뉴스와이어)--글로벌 AI 데이터 클라우드 기업 스노우플레이크(Snowflake)가 기업들이 강력한 AI 애플리케이션을 대규모로 쉽게 활용 및 구축할 수 있도록 스노우플레이크 코텍스 AI(Snowflake Cortex AI)에서 라마 3.1에 대한 호스팅을 개시한다고 발표했다.
라마 3.1은 다중 언어 오픈소스 대규모언어모델(LLM)의 컬렉션이다. 이번에 출시한 서비스에는 메타(Meta)에서 가장 큰 규모이자 강력한 성능의 오픈소스 LLM인 라마 3.1 405B가 제공된다. 스노우플레이크는 실시간의 고처리량 추론을 구현함은 물론, 강력한 자연어 처리 및 생성 애플리케이션의 보편화를 증진하는 추론 시스템 스택을 개발하고 오픈 소싱한다.
스노우플레이크 AI 리서치팀은 추론 및 파인튜닝에 대해 라마 3.1 405B를 최적화함으로써 서비스 개시 첫날부터 거대한 128K 컨텍스트 윈도우를 지원한다. 동시에 기존 오픈소스 솔루션에 비해 엔드투엔드 지연 시간은 최대 3분의 1로 낮아지고 처리량은 1.4배 높아진 실시간 추론을 구현한다. 또한 코텍스 AI에서 하나의 GPU 노드만을 사용해 거대 모델을 미세 조정할 수 있어 개발자와 사용자 모두에게 비용과 복잡성을 완화해준다.
메타와 협력을 통해 스노우플레이크 고객은 AI 데이터 클라우드에서 메타의 최신 모델에 원활하게 액세스하고 파인튜닝해 배포할 수 있다. 스노우플레이크는 사용이 간편하고 효율성 및 신뢰도 높은 방법은 물론, 기본적으로 내장된 신뢰도 및 안전성에 대한 포괄적인 접근 방식을 제공한다.
비벡 라구나단(Vivek Raghunathan) 스노우플레이크 AI 엔지니어링 부사장은 “스노우플레이크의 AI 리서치팀은 기업과 오픈소스 커뮤니티가 라마 3.1 405B 등의 최첨단 오픈 모델을 적극 활용해 효율 극대화를 위한 추론 및 파인튜닝을 가능하게 한다”며 “스노우플레이크는 메타의 첨단 모델을 스노우플레이크 코텍스 AI를 통해 고객에게 직접 제공할 뿐만 아니라 더 폭넓은 생태계에서 AI를 고도화하기 위해 128K 컨텍스트 윈도우와 다중노드 추론, 파이프라인 병렬화, 8비트 부동 소수점 양자화 등을 지원하는 새로운 연구 및 오픈소스 코드로 기업과 AI 커뮤니티의 역량을 강화하고 있다”고 말했다.
업계 최고의 스노우플레이크 AI 리서치팀, 가장 빠르고 메모리 효율 높은 오픈소스 추론 및 파인튜닝 주도
스노우플레이크 AI 리서치팀은 AI 커뮤니티에 정기적으로 기여하고 최첨단 LLM 기술 구축 방식에 대한 투명성을 높여 오픈소스 혁신의 한계를 넓혀가고 있다. 또한 라마 3.1 405B의 출시와 더불어 딥스피드(DeepSpeed), 허깅페이스(HuggingFace), vLLM 및 보다 폭넓은 AI 커뮤니티와의 협업을 통해 자사의 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택을 오픈 소스화하고 있다. 이러한 혁신을 통해 수천억 개의 매개변수 모델에 대한 오픈소스 추론 및 파인튜닝 시스템에 필요한 새로운 최첨단 솔루션을 구축한다.
초거대 모델의 규모 및 메모리에 대한 요구사항은 실시간 유스케이스에 요구되는 저지연성 추론과 비용 효율을 위한 높은 처리량, 그리고 다양한 엔터프라이즈급 생성형 AI 유스케이스에 필요한 긴 컨텍스트 지원을 실현하고자 하는 사용자에게 있어 상당한 도전 과제다. 모델 및 활성 상태 저장에 대한 메모리 요구사항도 파인튜닝을 어렵게 하며, 훈련을 위한 모델의 상태에 맞춰야 하는 대규모 GPU 클러스터에 데이터 과학자가 액세스할 수 없는 경우도 빈번하다.
스노우플레이크의 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택은 이러한 문제를 극복했다. 스노우플레이크는 고급 병렬화 기술과 메모리 최적화를 통해 복잡하고 고비용의 인프라가 없어도 효율적인 AI 처리가 가능하다. 라마 3.1 405B의 경우 스노우플레이크의 시스템 스택은 단일 GPU 노드 하나로도 실시간의 고처리량 성능을 발휘하고 다중 노드 설정 전반에 걸쳐 128k 개의 거대한 컨텍스트 윈도우를 지원한다. 이러한 유연성은 차세대 하드웨어와 레거시 하드웨어 모두에 유효해 보다 광범위한 기업들이 이용할 수 있다. 또한 데이터 과학자들이 전보다 적은 개수의 GPU 상에서 복합 정밀 기술을 사용해 라마 3.1 405B를 파인튜닝할 수 있으므로 대규모 GPU 클러스터에 대한 필요성이 사라진다. 이에 따라 기업들은 강력한 엔터프라이즈급 생성형 AI 애플리케이션을 보다 편리하고 효율적이며 안전하게 채택하고 배포할 수 있다.
스노우플레이크의 AI 리서치팀은 기업들이 이러한 유스케이스를 코텍스 AI에서 쉽게 적용할 수 있도록 모델 종류, 안전 가드레일, 검색 증강 생성(RAG), 합성 데이터 생성 등 파인튜닝에 최적화된 인프라도 개발했다.
스노우플레이크 코텍스 AI, 신뢰도 높고 책임감 있는 AI 제공을 위한 노력 강화
AI 안전성은 스노우플레이크와 고객에게 가장 중요한 요소 중 하나다. 이에 따라 스노우플레이크는 코텍스 AI에 구축된 모든 LLM 애플리케이션 및 자산을 유해한 콘텐츠로부터 더욱 강도 높게 보호하기 위해 업계 선도 기업과 협업하고 있다. 메타의 모델 또는 AI21 랩스(AI21 Labs), 구글(Google), 미스트랄 AI(Mistral AI), 레카(Reka) 및 스노우플레이크 등이 제공하는 LLM을 통해 스노우플레이크 코텍스 가드를 일반인들이 이용할 수 있도록 공개하고 있다.
스노우플레이크 고객 및 파트너사 전문가의 논평
데이브 린들리(Dave Lindley) E15 그룹 데이터 제품 상무는 “당사는 접객 서비스 산업의 선두 주자로서 고객의 소리(VOC) 플랫폼 내의 주요 사안을 심도 있게 이해하고 정량화하는 데 있어 생성형 AI를 전적으로 사용하고 있다. 스노우플레이크 코텍스 AI 상에서 메타의 업계 최고 모델인 라마를 이용할 수 있게 돼 데이터와의 소통을 더욱 강화하고 비즈니스 성과 향상에 필요한 인사이트를 확보할 수 있게 됐다”며 “라마를 파인튜닝하고 테스트해 게스트의 실시간 피드백에 기반한 조치를 운영에 반영하게 되길 기대한다”고 말했다.
라이언 클래퍼(Ryan Klapper) 하코다(Hakkoda) AI 리더는 “생성형 AI를 활용하는 데 있어 안전과 신뢰는 비즈니스의 필수 요소다. 스노우플레이크는 우리가 업계 최고 수준의 LLM을 혁신하고 활용하는 데 필요한 확신을 제공한다”며 “스노우플레이크 코텍스 AI 내에 메타의 라마 모델이 강력하게 결함으로써 우리에게는 내부 RAG 기반의 애플리케이션 서비스를 제공할 기회가 훨씬 더 늘어날 것이다. 이러한 애플리케이션은 사용자에게 포괄적인 내부 지식 기반과 매우 원활하게 상호작용을 할 수 있는 역량을 부여함으로써 필요할 때면 언제든지 정확하고 적절한 정보에 액세스할 수 있게 한다”고 말했다.
매튜 스컬리온(Matthew Scullion) 마틸리온(Matillion) CEO 겸 공동창립자는 “마틸리온은 메타의 라마 모델을 스노우플레이크 코텍스 AI 내에서 활용해 고객들에게 최신 오픈소스 LLM에 대한 액세스를 부여하고 있다”며 “앞으로 추가될 라마 3.1은 우리의 팀과 사용자들에게 유스케이스에 가장 잘 부합하고 첨단 AI 혁신을 지속하도록 지원하는 대규모언어모델을 액세스하는 데 있어 지금보다 더 많은 선택과 유연성을 제공할 것”이라고 밝혔다.
케빈 니파코(Kevin Niparko) 트윌리오 세그먼트(Twilio Segment) 제품 및 기술 전략 부사장은 “고객 참여 및 고객 데이터 플랫폼 분야의 리더인 트윌리오의 고객들은 적절한 타깃에게 적절한 메시지를 적시에 생성하기 위해 올바른 데이터에 액세스해야 한다”고 말했다. 이어 “스노우플레이크 코텍스 AI 내에서 유스케이스에 적합한 모델을 선택할 수 있는 역량은 우리의 공통된 고객들이 AI 기반의 인사이트를 생성하고 후속 툴에서 이를 쉽게 구현하는 데 도움이 된다. 급속도로 발전하는 시대에 기업들이 최상의 결과를 도출하기 위해서는 통합 데이터 세트에 대한 작업을 빠른 속도로 반복해야 한다”고 덧붙였다.