캐시 토큰

로컬라이제이션 엔진이 텍스트를 번역할 때 LLM에 보내는 프롬프트에는 모든 요청에서 동일한 부분과 요청마다 달라지는 부분이 함께 들어갑니다. 프롬프트 캐싱을 사용하면 엔진은 고정된 부분을 매번 다시 처리하지 않고 재사용할 수 있습니다. 이렇게 재사용된 토큰은 사용량에 캐시 토큰으로 표시되며, 일반 입력 토큰보다 훨씬 저렴하게 계산됩니다.

번역 프롬프트는 어떻게 구성되나요?#

엔진이 모델에 보내는 각 요청은 여러 레이어로 구성됩니다. 같은 엔진과 로캘에서는 일부 레이어가 항상 고정되어 있고, 하나는 요청마다 달라지는 동적 레이어입니다.

레이어	고정 / 동적	캐시 여부
시스템 프롬프트 - 엔진 정체성, 로컬라이제이션 규칙, 문법	모든 엔진에서 고정	예
로캘별 사용자 지침과 브랜드 보이스	엔진을 수정하기 전까지 고정	예
이번 요청에 맞춰 조회된 용어집 항목	동적 - 요청마다 달라짐	아니요
번역할 텍스트	동적	아니요

고정된 레이어는 프롬프트 앞부분에서 연속된 접두부를 이룹니다. 엔진은 이 접두부의 끝을 캐시 브레이크포인트로 표시합니다. 이 지점 앞은 캐시되어 재사용할 수 있고, 그 뒤에 오는 요청별 용어집, 예시, 입력 텍스트는 매 요청마다 새로 전송됩니다.

용어집이 캐시되지 않는 이유

용어집은 지금 번역하는 정확한 텍스트를 기준으로 요청마다 조회되기 때문에, 요청이 바뀌면 내용도 달라집니다. 그래서 이를 캐시 브레이크포인트 뒤에 두면, 특정 요청에서 어떤 용어집 항목이 불러와지든 나머지 프롬프트는 계속 재사용할 수 있습니다.

캐시된 입력이 더 저렴한 이유#

특정 엔진과 로캘에 대한 첫 요청은 고정된 접두부를 제공업체의 캐시에 기록합니다. 이후 같은 접두부를 재사용하는 요청은 처음부터 다시 처리하는 대신 캐시에서 이를 읽어옵니다. 제공업체는 캐시 읽기에 대해 일반 입력 토큰보다 훨씬 낮은 요율을 적용하므로, 프롬프트의 대부분을 차지하는 변하지 않는 부분은 매 요청마다 정가로 다시 과금되지 않습니다.

캐시는 수명이 짧고, 엔진이 아니라 모델 제공업체가 관리합니다. 따라서 같은 엔진과 로캘에서 짧은 시간 안에 많은 번역이 이뤄질수록 효과가 커집니다. 접두부가 아직 살아 있는 동안 요청이 들어오면 캐시에서 바로 읽어올 수 있기 때문입니다.

캐싱은 자동으로 적용됩니다

별도로 설정할 것은 없습니다. 요청이 캐싱을 사용할지는 해당 요청을 처리하는 모델에 따라 달라집니다. Anthropic과 Google 모델은 명시적인 캐시 브레이크포인트를 사용하고, OpenAI 모델은 긴 접두부를 자체적으로 캐시하며, 일부 제공업체는 캐싱을 지원하지 않기도 합니다. 엔진은 모델별로 알맞은 동작을 적용합니다.

기대할 수 있는 효과#

비용 절감 - 고정된 접두부는 처음 한 번만 정가로 처리되고, 이후 반복 요청에서는 할인된 캐시 읽기 요율이 적용됩니다.
지연 시간 감소 - 캐시된 토큰은 다시 처리할 필요가 없으므로, 워밍된 요청은 더 빠르게 응답합니다.
설정 불필요 - 캐싱은 기본으로 활성화되어 있어 엔진 설정에서 따로 켤 필요가 없습니다.

이 효과는 같은 엔진과 로캘로 꾸준히 요청이 들어올수록 더 커집니다. 같은 구성이 요청을 연속해서 처리하는 프로덕션 로컬라이제이션 파이프라인에 딱 맞는 구조입니다.

사용량에서 캐시 토큰 읽는 법#

각 번역 응답에는 캐시 토큰과 새 입력을 구분해 보여주는 사용량 세부 정보가 포함됩니다:

json

{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}

필드	의미
`inputTokens`	이번 요청에서 새로 처리된 프롬프트 토큰
`outputTokens`	모델이 생성한 토큰
`cacheReadTokens`	제공업체 캐시에서 제공된 프롬프트 토큰입니다. 캐시된 항목이 없으면 `0`로 표시됩니다.
`cacheWriteTokens`	이번 요청에서 캐시에 기록된 프롬프트 토큰 - 캐시 미스 또는 첫 호출입니다.

엔진과 로캘에 대한 첫 요청에서는 보통 양수의 cacheWriteTokens가 표시되고(접두부를 기록 중), cacheReadTokens는 0입니다. 이후 캐시가 아직 살아 있는 동안 들어오는 후속 요청에서는 반대로 cacheReadTokens가 늘어나고 cacheWriteTokens는 0으로 떨어집니다. 엔진 전반의 총 토큰 사용량은 Reports에서 추적할 수 있습니다.

다음 단계#

LLM 모델

각 로캘 쌍을 처리할 모델을 선택하세요

지침

캐시된 접두부의 일부로, 여러 요청에 걸쳐 재사용됩니다

브랜드 보이스

캐시된 접두부의 일부로, 여러 요청에 걸쳐 재사용됩니다

Reports

캐시 토큰을 포함한 토큰 사용량을 추적하세요

번역 프롬프트는 어떻게 구성되나요?#

레이어	고정 / 동적	캐시 여부
시스템 프롬프트 - 엔진 정체성, 로컬라이제이션 규칙, 문법	모든 엔진에서 고정	예
로캘별 사용자 지침과 브랜드 보이스	엔진을 수정하기 전까지 고정	예
이번 요청에 맞춰 조회된 용어집 항목	동적 - 요청마다 달라짐	아니요
번역할 텍스트	동적	아니요

용어집이 캐시되지 않는 이유

캐시된 입력이 더 저렴한 이유#

캐싱은 자동으로 적용됩니다

기대할 수 있는 효과#

비용 절감 - 고정된 접두부는 처음 한 번만 정가로 처리되고, 이후 반복 요청에서는 할인된 캐시 읽기 요율이 적용됩니다.
지연 시간 감소 - 캐시된 토큰은 다시 처리할 필요가 없으므로, 워밍된 요청은 더 빠르게 응답합니다.
설정 불필요 - 캐싱은 기본으로 활성화되어 있어 엔진 설정에서 따로 켤 필요가 없습니다.

사용량에서 캐시 토큰 읽는 법#

각 번역 응답에는 캐시 토큰과 새 입력을 구분해 보여주는 사용량 세부 정보가 포함됩니다:

json

{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}

필드	의미
`inputTokens`	이번 요청에서 새로 처리된 프롬프트 토큰
`outputTokens`	모델이 생성한 토큰
`cacheReadTokens`	제공업체 캐시에서 제공된 프롬프트 토큰입니다. 캐시된 항목이 없으면 `0`로 표시됩니다.
`cacheWriteTokens`	이번 요청에서 캐시에 기록된 프롬프트 토큰 - 캐시 미스 또는 첫 호출입니다.

다음 단계#

LLM 모델

각 로캘 쌍을 처리할 모델을 선택하세요

지침

캐시된 접두부의 일부로, 여러 요청에 걸쳐 재사용됩니다

브랜드 보이스

캐시된 접두부의 일부로, 여러 요청에 걸쳐 재사용됩니다

Reports

캐시 토큰을 포함한 토큰 사용량을 추적하세요