LLMとRAGを研究する中で、推論最適化の実験場として将棋AIのOSSに取り組みました。DL系とNNUE系の2つのエンジンを改造し、Floodgateでレーティング4500超・1位を達成。その過程で得た「蒸留済みモデルに追加学習は要らない」...
Gemini APIとRTX 5090(VRAM 32GB)を組み合わせ、AIとの対話データを資産化する実践的ガイド。Google Takeoutの不具合を回避する履歴エクスポート手法から、GASを用いた知識ベース構築、Gemma 3を活用...
NVIDIAが公開した日本語特化9BパラメータLLM「Nemotron-Nano-9B-v2-Japanese」のローカル実行手順。Mamba SSMアーキテクチャ採用、Thinkingモード対応。uvによる環境構築からTransforme...
NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで動かし、開発環境のデータをバッチ処理で分析・構造化する設計。OllamaではなくvLLMを選ぶ理由、NVIDIAスタックの実態(TensorRT非経由)、ファ...
将棋AIの蒸留実験で得た知見をLLMに適用します。蒸留済みモデルにFTしても無意味か有害、LoRAはプロンプトで代替できます。モデルをいじるのではなく、モデルの周りを設計するのが正解です。...
SQLiteのLIKE検索では実用にならなかった173万件の特許データ検索を、FTS5全文検索で解決。転置インデックス、BM25ランキング、複合検索の実装手順と、MCP連携時のクエリチューニングのノウハウを解説します。...
Desktop PC(RTX 5090)でvLLMを使いローカルLLMを動かし、Flutter Webで5つの機能を1アプリに統合。クラウドにデータを送らないAI開発支援アプリの構築過程と、Flask APIバックエンドとの連携方法を解説し...
ddgsライブラリとローカルLLM(Nemotron)を組み合わせて、APIキー不要の無料リサーチエージェントを構築する方法を解説します。RAGパイプラインの実装例やBrave Search APIとの比較も含みます。...
Google GeminiのContext Caching機能を活用して、大規模データ分析のAPIコストを削減し、処理時間を短縮する手法を解説します。教師データのキャッシュ化やバッチ処理の具体例を示します。...
Gemini 2.5 FlashとNemotron 9Bを組み合わせ、コスト・品質・プライバシーのバランスを取る実装パターンを紹介します。共通インターフェースの設計やエラーハンドリングのコツも解説します。...
ローカルLLM(Nemotron 9B)をvLLMで実行し、Node.jsのMineflayerを介してMinecraft NPCに自然言語による状況判断・応答能力を与える実装手法を解説します。...
Nemotron 9Bでコンテンツを生成し、Gemini 2.5 Flashで整形・ファクトチェックを行う2段階パイプラインの設計と実装を解説します。thinking漏れ問題への対策も紹介します。...
自作の無料特許検索エンジンをReddit r/LocalLLaMAに投稿したら2時間で65アップボートと20件超の技術的質問が飛んできた。FTS5 vs ベクトル検索、LLMクエリ拡張、74GB SQLiteの運用など、海外エンジニアとの実...