/通喵千問

gpu-inference

ローカルLLMのためのハードウェア選定：VRAMの壁を越えるGPU・CPU・メモリ構成の実践

ローカルLLMの推論速度に悩む開発者向けに、VRAM 32GBを搭載したRTX 5090とCore Ultra 9による環境構築の最適解を解説します。VRAM不足によるPCIeボトルネックなどの失敗談を交えつつ、Windows 11 + W...

gpu-inference

NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで起動し、OpenAI互換APIとして自作アプリに組み込む方法を解説します。GGUF変換不要・Ollamaのトラブル回避・既存コードのそのまま流用が可能で、3行...

gpu-inference

RTX 5090の32GB VRAMを活用し、将棋AI・LLMアプリ・法務システムなど13プロジェクトを1枚のGPUで運用するための共通基盤設計とリソース管理戦略を解説します。...

gpu-inference

RTX 5090の32GB VRAMをWSL2環境で最大活用し、vLLM・TensorRT・将棋AI・Streamlitアプリを同居させるAI開発環境の構築手法を解説します。...

gpu-inference

dlshogi将棋エンジンをRTX 5090上でTensorRT FP8量子化して運用した記録です。Fuka40Bモデルの構造、量子化の効果、Floodgate実戦結果、ハイブリッドシステムの設計を解説します。...