Ollama Thinking Mode 활성화와 비활성화 방법
1) CLI에서 한 번만 실행할 때
활성화
ollama run qwen3.5 --think "질문"
비활성화
ollama run qwen3.5 --think=false "질문"
생각은 하되, thinking trace만 화면에 숨기기
ollama run qwen3.5 --hidethinking "질문"
공식 CLI quick reference에 이 형태가 그대로 나와 있습니다. --think=false는 사고 자체를 끄는 쪽이고, --hidethinking은 사고는 유지하면서 trace 표시만 숨기는 쪽입니다.
2) CLI 대화형 세션에서 계속 사용할 때
먼저 세션을 연 뒤:
ollama run qwen3.5
세션 안에서 전환합니다.
활성화
/set think
비활성화
/set nothink
즉, 대화형 모드에서는 --think=false를 매번 붙이는 대신 /set think, /set nothink로 상태를 바꿉니다.
3) Ollama 네이티브 REST API (/api/chat, /api/generate)
네이티브 API에서는 요청 본문에 think를 넣습니다. 대부분의 thinking 모델은 true / false를 받습니다. 응답에서는 reasoning trace가 message.thinking 또는 thinking에, 최종 답은 message.content 또는 response에 들어갑니다.
활성화 예시
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5",
"messages": [
{ "role": "user", "content": "안녕?" }
],
"think": true,
"stream": false
}'
비활성화 예시
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5",
"messages": [
{ "role": "user", "content": "안녕?" }
],
"think": false,
"stream": false
}'
4) OpenAI 호환 API (/v1/chat/completions)를 쓸 때
OpenAI 호환 엔드포인트에서는 공식 문서상 reasoning/thinking control이 지원되며, 요청 필드로 reasoning_effort 또는 reasoning.effort를 받을 수 있습니다. 허용값에 "none"이 포함되어 있으므로, 실질적으로 thinking을 끄려면 "none"을 쓰는 방식으로 보면 됩니다.
비활성화 예시
{
"model": "qwen3.5",
"messages": [
{ "role": "user", "content": "안녕?" }
],
"reasoning_effort": "none"
}
또는
{
"model": "qwen3.5",
"messages": [
{ "role": "user", "content": "안녕?" }
],
"reasoning": {
"effort": "none"
}
}
5) Ollama GUI 앱
2026년 2월 현재 GUI에서는 지원되지 않는 것으로 보는 게 맞습니다.
6) 예외: GPT-OSS 계열
GPT-OSS는 일반적인 true / false가 아니라 low, medium, high 같은 레벨형 think 값을 씁니다. 공식 문서에 따르면 이 계열은 trace를 완전히 끄는 방식이 아니라 길이/강도를 조절하는 쪽입니다.