정리/ollama

ollama qwen3-coder-next 메모리 사용 조정

워로디스 2026. 2. 20. 22:32

메모리 부족(OOM) 에러를 우회하여 모델을 실행해 볼 수 있는 구체적인 터미널 및 설정 플로우입니다.

 

기본 256K에 달하는 방대한 기억 공간(컨텍스트 윈도우)을 코딩에 무리가 없는 8K 수준으로 제한하고, 그래픽카드(VRAM)에 가해지는 부하를 시스템 RAM으로 분산시키는 설정입니다.

 

Step 1. Modelfile 작성하기

  1. 텍스트 편집기(메모장, VS Code 등)를 엽니다.
  2. 아래의 코드를 복사하여 빈 문서에 붙여넣습니다.
FROM qwen3-coder-next:latest

# 컨텍스트 윈도우를 256K에서 8K(8192)로 대폭 축소하여 메모리 낭비 방지
PARAMETER num_ctx 8192

# GPU VRAM으로 보낼 레이어 수 제한 
# (에러가 계속 나면 이 숫자를 5나 0으로 줄여 CPU/RAM 의존도를 높이세요)
PARAMETER num_gpu 10
  1. 문서를 바탕화면이나 작업하기 편한 폴더에 Modelfile이라는 이름으로 저장합니다. (확장자 .txt가 붙지 않도록 주의해 주세요.)

 

Step 2. 최적화된 커스텀 모델 빌드하기

  1. 명령 프롬프트(CMD) 또는 터미널을 엽니다.
  2. cd 명령어를 사용해 방금 Modelfile을 저장한 폴더로 이동합니다. (예: cd Desktop)
  3. 아래 명령어를 입력하여 새로운 설정이 적용된 모델을 생성합니다. (기존 모델의 설정만 바꾸는 것이라 수 초 내로 끝납니다.)
ollama create qwen3-coder-lite -f Modelfile

 

Step 3. 새로운 모델 실행하기

빌드가 성공적으로 끝났다면, 이제 최적화된 이름으로 모델을 실행합니다.

ollama run qwen3-coder-lite