정리/ollama
ollama qwen3-coder-next 메모리 사용 조정
워로디스
2026. 2. 20. 22:32
메모리 부족(OOM) 에러를 우회하여 모델을 실행해 볼 수 있는 구체적인 터미널 및 설정 플로우입니다.
기본 256K에 달하는 방대한 기억 공간(컨텍스트 윈도우)을 코딩에 무리가 없는 8K 수준으로 제한하고, 그래픽카드(VRAM)에 가해지는 부하를 시스템 RAM으로 분산시키는 설정입니다.
Step 1. Modelfile 작성하기
- 텍스트 편집기(메모장, VS Code 등)를 엽니다.
- 아래의 코드를 복사하여 빈 문서에 붙여넣습니다.
FROM qwen3-coder-next:latest
# 컨텍스트 윈도우를 256K에서 8K(8192)로 대폭 축소하여 메모리 낭비 방지
PARAMETER num_ctx 8192
# GPU VRAM으로 보낼 레이어 수 제한
# (에러가 계속 나면 이 숫자를 5나 0으로 줄여 CPU/RAM 의존도를 높이세요)
PARAMETER num_gpu 10
- 문서를 바탕화면이나 작업하기 편한 폴더에
Modelfile이라는 이름으로 저장합니다. (확장자.txt가 붙지 않도록 주의해 주세요.)
Step 2. 최적화된 커스텀 모델 빌드하기
- 명령 프롬프트(CMD) 또는 터미널을 엽니다.
cd명령어를 사용해 방금Modelfile을 저장한 폴더로 이동합니다. (예:cd Desktop)- 아래 명령어를 입력하여 새로운 설정이 적용된 모델을 생성합니다. (기존 모델의 설정만 바꾸는 것이라 수 초 내로 끝납니다.)
ollama create qwen3-coder-lite -f Modelfile
Step 3. 새로운 모델 실행하기
빌드가 성공적으로 끝났다면, 이제 최적화된 이름으로 모델을 실행합니다.
ollama run qwen3-coder-lite