クラウドLLMが入力文書を割愛している事実に気づき、ローカルLLM導入を決意。研究室規模の予算でMac Studio M4 MaxとRTX5090搭載PCを導入し、医学文書の大量処理環境を構築した。
ローカルLLM導入の目的
LLMの素の性質を理解する
導入を決めたきっかけは、クラウドサービスのLLMが入力文書の一部を割愛して読んでいないことがわかったことだ。昨年7月当時のLLMサービスは技術的・経済的理由で入力文字数を制限していた(現在は多分そういうことはやっていない)。
ChatGPTなどの外部サービスはLLMを中心に組み立てられた総合的知能提供サービスなので、LLM本体の挙動を正確に知るためには、オープンウェイトLLMを自分で動かす必要がある。これが最大の動機だった。
運用コストを削減する
大量の文書を外部LLMで処理するためには、大きな出費が必要だ。ローカルLLMを使えば、初期コストとしてのPC代は必要なものの、運営費用は電気代のみになる。
また大量処理は単純作業が多いので最新モデルは必要ではない。当初の目的は大量のPubMedアブストラクトのデータ処理なので、14bから27bのオープンウェイトLLMで十分という判断だった。
圧倒的な所有感
自分よりも賢い知能を小さな箱(Mac/PC)に閉じ込めて酷使する、というのはとても気持ちが良い。ChatGPTやGeminiは誰でも使える共有サービスなので、このような快感は得られない。この所有感はたまらない。
セットアップ
ソフトウェア(LLMプラットフォーム)
オープンウェイトLLMの導入を容易にするためのソフトウェアプラットフォームが用意されていて、初心者はOllamaかLM Studioを使うことになっている。
OllamaはCLI中心、LM StudioはGUIということなので、Ollamaの方が融通が効くだろう、と勝手に考えてOllamaにした。検討したわけでも積極的な理由があったわけではない。
パラメータ設定の自由度や使えるモデルは十分豊富で、半年以上使っているが満足している。自作のスクリプトの公開を考えているので、サーバー性能に不満が出ればvLLMを検討するかもしれない。
ハードウェア
Mac Studio M4 Max 128GB
現在の予算規模感は大学の小規模研究室レベルなので、H100のようなデータセンター用GPUには手が出ない。コンシューマー向けPCの最上位機種に的を絞ることにした。
導入目的はLLMの理解が第一なので、14-27bモデルだけでなく、もう少し大きいモデルも動かせるようにMac Studioを選択した。
LLMは、そのすべてを一つのメモリに常駐させる必要がある。 MacのメモリはUnified MemoryでCPUとGPUがメモリを共有して使えるので、70B、120Bモデルでもメモリに乗せることができる。これが最大のメリットだ。
RTX5090搭載PC
Mac Studioで大量の文書処理を行ったところ非常に長い時間(1ヶ月以上)かかったので、改善するためにRTX5090搭載PCを導入した。
自作の文書処理スクリプトの場合、gpt-oss-20bの処理速度はMac Studioの約3倍。RTX5090は消費者向けGPUの最上位モデルだが、GPUメモリは32GBで、動かせるモデルはいわゆる中規模モデル(〜30b)までに限られる。
オープンウェイトLLMの使用実感
gpt-oss-20b / gpt-oss-120b
昨年8月にOpenAIがオープンウェイトLLMをリリースしたことが、ローカルLLM導入の直接のきっかけだった。大半の時間をこの2つのオープンウェイトLLMに使っている。
分析対象: 医学文書(PubMedアブストラクトからのデータ抽出と医学論文PDFの分析)
性能比較:
- 医学文書を解説する能力は20bと120bにはだいぶ差があって、120bは使えるが、20bは使えない
- PubMedアブストラクトから指定したデータを抽出する能力は少し20bの方が上で、速度は20bの方がずっと速い
- 大量の文書(PubMedアブストラクト)の処理にはgpt-oss-20bを使っている
現在の最新モデル(GPT-5.x、Gemini 3.x)との比較:
- 20bは問題外で比較対象外
- 120bは自身がよく知っている分野であれば論文の解説や要約に使える。つまり説明がおかしいことに気がつける分野であればOK(ただし最新モデルでもおかしなことを言うことはあるので同じか)
- GPT-5.x、Gemini 3.xはscientific discussionに十分使える(基本的に自分よりも賢い)が、これは120bは無理
Gemma3 27b
PubMedアブストラクト大量処理用オープンウェイトLLMの対照として使ってみた。gpt-oss-20bと性能はほぼ同じ。
いくつか食い違っていたデータ抽出結果が、gpt-oss-20bの方が望ましかったことと、比較した時点でgpt-oss-20bを使い込んでいたので、本番ではgpt-oss-20bを選択。
中国系AI:DeepSeek R1、Qwen 3.5
Mac Studioで使える70bクラスのモデルは、指示追従性(Instruction Following)が悪く、GPTやGeminiで使えるプロンプトが正しく解釈されないことが多い。
試行錯誤すれば使えるとは思うが、クラウドサービスのパラメータの大きいものの性能を鑑みて、過剰な検討の必要はない、と判断した。
Qwen 3-Next Coder 70B
Anthropicに課金せずにエージェントなるもの(Claude Code)を経験するために導入。OllamaはMCP(Model Context Protocol)をサポートしているので、エージェントは、LLMにPC操作をさせるツールである、ということが体験できた。
実験結果:
- Qwen 3-Next Coder を使った場合、既存のスクリプトの修正は可能だが、新規のスクリプト開発は途中で止まってしまった
- gpt-oss-120bの場合は、新規のスクリプト開発を行ったが欠陥のあるスクリプトで使えなかった
- これらのオープンウェイトLLMは小さな修正が限界だった
- やはりClaude Codeを使うためにはAnthropicのサブスクリプションが必要だ
MedGemma 27b
MedGemma 27bはGemma 3ベースの医療・医学専用のオープンウェイトLLMだ。医学分野では120bより優れた性能を持っている。研究のパートーナー以外の用途(文書分析)なら十分最新モデルの代わりに使える。
論文やPubMedアブストラクトの分析を医学に限定すれば、RTX5090搭載PCで高速に動かすことができるという大きなメリットがある。このモデルを使えば、RTX5090搭載PCをサーバーにして自作の検索・分析システムを公開できる。専門分野に特化したモデルの有用性を実感した。
まとめ
ローカルLLM環境の構築により、以下のことがわかった:
- LLMの本質的な挙動の理解 - クラウドサービスのブラックボックスから脱却
- 大量文書処理のコスト削減 - 電気代のみで運用可能
- 用途に応じた使い分け - Mac Studio(大規模モデルの試用)とRTX5090(中規模モデルの高速運用)
- 専門分野での実用性 - Med-Gemmaのような特化モデルの活用
研究室規模の予算でも、適切なハードウェアとオープンウェイトLLMの組み合わせにより、実用的なAI研究環境を構築できる。