워로디스

Ollama Thinking Mode 활성화와 비활성화 방법 본문

정리/Ollama

Ollama Thinking Mode 활성화와 비활성화 방법

워로디스 2026. 3. 14. 14:56

1) CLI에서 한 번만 실행할 때

 

활성화

ollama run qwen3.5 --think "질문"

 

비활성화

ollama run qwen3.5 --think=false "질문"

 

생각은 하되, thinking trace만 화면에 숨기기

ollama run qwen3.5 --hidethinking "질문"

 

공식 CLI quick reference에 이 형태가 그대로 나와 있습니다. --think=false는 사고 자체를 끄는 쪽이고, --hidethinking은 사고는 유지하면서 trace 표시만 숨기는 쪽입니다.

 

2) CLI 대화형 세션에서 계속 사용할 때

 

먼저 세션을 연 뒤:

ollama run qwen3.5

세션 안에서 전환합니다.

 

활성화

/set think

 

비활성화

/set nothink

 

즉, 대화형 모드에서는 --think=false를 매번 붙이는 대신 /set think, /set nothink로 상태를 바꿉니다.

 

3) Ollama 네이티브 REST API (/api/chat, /api/generate)

 

네이티브 API에서는 요청 본문에 think를 넣습니다. 대부분의 thinking 모델은 true / false를 받습니다. 응답에서는 reasoning trace가 message.thinking 또는 thinking에, 최종 답은 message.content 또는 response에 들어갑니다.

 

활성화 예시

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5",
  "messages": [
    { "role": "user", "content": "안녕?" }
  ],
  "think": true,
  "stream": false
}'

 

비활성화 예시

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5",
  "messages": [
    { "role": "user", "content": "안녕?" }
  ],
  "think": false,
  "stream": false
}'

 

4) OpenAI 호환 API (/v1/chat/completions)를 쓸 때

OpenAI 호환 엔드포인트에서는 공식 문서상 reasoning/thinking control이 지원되며, 요청 필드로 reasoning_effort 또는 reasoning.effort를 받을 수 있습니다. 허용값에 "none"이 포함되어 있으므로, 실질적으로 thinking을 끄려면 "none"을 쓰는 방식으로 보면 됩니다.

 

비활성화 예시

{
  "model": "qwen3.5",
  "messages": [
    { "role": "user", "content": "안녕?" }
  ],
  "reasoning_effort": "none"
}

 

또는

{
  "model": "qwen3.5",
  "messages": [
    { "role": "user", "content": "안녕?" }
  ],
  "reasoning": {
    "effort": "none"
  }
}

 

5) Ollama GUI 앱

 

 

2026년 2월 현재 GUI에서는 지원되지 않는 것으로 보는 게 맞습니다.

 

6) 예외: GPT-OSS 계열

 

GPT-OSS는 일반적인 true / false가 아니라 low, medium, high 같은 레벨형 think을 씁니다. 공식 문서에 따르면 이 계열은 trace를 완전히 끄는 방식이 아니라 길이/강도를 조절하는 쪽입니다.