자세히 보기

“API 비용 최대 90% 절감”··· 앤트로픽, 클로드 모델에 ‘프롬프트 캐싱’ 기능 추가

뉴스
2024.08.163분

앤트로픽(Anthropic)이 API 입력 비용을 최대 90%까지 절약할 수 있는 프롬프트 캐싱 기능 출시했다고 밝혔다.

앤트로픽이 프롬프트 캐싱 기능을 도입한다고 15일 발표했다. 개발자들은 새로운 기능을 통해 API 호출 간에 자주 사용하는 프롬프트를 저장할 수 있게 된다.

구체적으로 프롬프트 캐싱을 통해 사용자는 클로드에 긴 프롬프트를 제공하면 후속 요청에서 프롬프트를 다시 보낼 필요 없이 참조할 수 있다. 앤트로픽은 블로그를 통해 “프롬프트 캐싱을 통해 고객은 클로드에 더 많은 배경 지식과 맥락 및 예시 정보를 제공하는 동시에 긴 프롬프트의 경우 비용을 최대 90%, 지연 시간을 최대 85%까지 줄일 수 있다”고 설명했다.

이 기능은 현재 클로드 3.5 소네트와 클로드 3 하이쿠의 공개 베타 버전에서 사용할 수 있으며, 클로드 3 오푸스에 대한 지원은 곧 제공될 예정이다.

예일대학교와 구글 연구진이 2023년 발표한 논문에 따르면, 추론 서버에 프롬프트를 저장함으로써 개발자는 첫 번째 토큰까지의 지연 시간을 크게 줄일 수 있다. 이는 특히 문서 기반 질의응답이나 추천 시스템과 같이 긴 프롬프트를 사용하는 경우에 효과적이다. 이러한 개선은 GPU 기반 추론에서 최대 8배, CPU 기반 추론에서 최대 60배까지 가능하며, 출력 정확도는 유지하면서도 모델 파라미터 수정 없이 이루어진다.

컨스텔레이션 리서치(Constellation Research)의 부사장 겸 수석 애널리스트인 앤디 투라이는 “폐쇄형 LLM을 사용할 때 사용량이 많아지면 비용이 증가하는데, 특히 동일한 프롬프트를 반복적으로 사용해야 할 때, 요청과 응답이 이뤄질 때마다 동일한 금액을 청구 받는 경우가 많아 기업과 개발자들이 비용에 걱정을 하고 있다”고 설명했다. 그는 “특히 여러 사용자가 하루에 여러 번 비슷한 답변을 찾기 위해 동일한(또는 다소 유사한) 프롬프트를 입력하는 경우 비용 부담이 커진다”라고 말했다.

프롬프트 캐싱의 사용 사례
앤트로픽에 따르면, 프롬프트 캐싱이 도움이 되는 사례로는 대화형 에이전트, 코딩 어시스턴트, 대용량 문서 처리가 있다. 또한 책, 논문, 성적표 등 캐시된 긴 형식의 콘텐츠를 쿼리할 수 있는 경우에도 유용하다. 이 외에도 지침, 절차, 예제를 공유하여 AI 모델의 응답을 미세 조정하는 데도 활용될 수 있다. 또한, 여러 차례의 도구 호출과 반복적인 변경이 필요한 복잡한 작업에서 프롬프트 캐싱을 이용하면 API 호출 횟수를 줄여 전반적인 성능을 향상시킬 수 있다.

앤트로픽에 따르면, 프롬프트 캐싱이 활성화되면 시스템은 수신된 각 프롬프트가 이전에 캐시된 것인지 확인한다. 이미 캐시된 프롬프트가 있다면 그 버전을 사용하고, 그렇지 않은 경우 해당 프롬프트를 나중에 사용할 수 있도록 캐시한다.

개발자는 프롬프트에 최대 4개의 캐시 중단점을 정의할 수 있다. 이 중단점은 클로드 3.5 소네트에서는 1024토큰 경계에, 기능이 구현된 오푸스에서는 2048토큰 경계에 캐시된다(클로드 3 하이쿠에서는 해당되지 않음). 더 짧은 프롬프트는 현재 캐시할 수 없다. 캐시 수명은 5분이지만 캐시된 콘텐츠가 사용될 때마다 새로 고쳐진다.

새로운 기능은 새로운 가격 체계에 따라 제공되며, 캐시 쓰기 토큰은 기본 입력 토큰보다 25% 더 비싸고 캐시 읽기 토큰은 90% 더 저렴하다.

앤트로픽은 “새 기능을 미리 사용해본 고객들은 프롬프트 캐싱을 통해 전체 지식 기반부터 100개의 예시까지 다양한 사용 사례에서, 대화의 각 턴을 포함한 프롬프트 사용 시 속도와 비용이 크게 개선된 것을 확인했다”라고 설명했다.

보안 우려 제기
그러나 컨설팅 기업 인포테크 리서치 그룹(Info-Tech Research Group)의 AI 시장 조사 책임자 토마스 랜달은 “프롬프트 캐싱은 성능 최적화와 사용 효율성 향상을 위한 좋은 방향이지만, 프로그래밍 내에서 캐싱을 활용할 때 보안 문제를 더욱 신경써야 한다”라며 “프롬프트가 적절하게 재설정되거나 검토되지 않은 채 조직 간에 공유될 경우 캐시 내의 민감한 정보가 실수로 전달될 수 있다”고 경고했다.

투라이는 앤트로픽이 프롬프트 캐싱을 선도적으로 제공하고 있지만, 다른 LLM 공급업체는 아직 이 옵션을 실험 중이라고 지적했다. 투라이는 GPTCache, 레디스 등 시중에 나와 있는 일부 오픈소스 솔루션은 결과를 임베딩으로 저장했다가 프롬프트와 일치할 경우 LLM을 방문하지 않고도 먼저 검색한다고 설명했다.

랜달은 “어떤 옵션을 사용하든 비슷한 프롬프트를 LLM에 여러 번 전송하는 경우 엄청난 비용을 절감할 수 있다”라며 “다른 폐쇄형 LLM 제공업체도 곧 비슷한 기능을 발표할 것으로 보인다”이라고 밝혔다.
dl-ciokorea@foundryco.com

Lynn Greiner

Lynn Greiner has been interpreting tech for businesses for over 20 years and has worked in the industry as well as writing about it, giving her a unique perspective into the issues companies face. She has both IT credentials and a business degree.

Lynn was most recently Editor in Chief of IT World Canada. Earlier in her career, Lynn held IT leadership roles at Ipsos and The NPD Group Canada. Her work has appeared in The Globe and Mail, Financial Post, InformIT, and Channel Daily News, among other publications.

She won a 2014 Excellence in Science & Technology Reporting Award sponsored by National Public Relations for her work raising the public profile of science and technology and contributing to the building of a science and technology culture in Canada.

이 저자의 추가 콘텐츠