/通喵千問 →English

RAG Eng Cat Mail Live ch GH
AI アーキテクチャ

将棋AIに触れて得たもの:Floodgate 1位までの道のりと、蒸留モデルとの向き合い方

LLMとRAGを研究する中で、推論最適化の実験場として将棋AIのOSSに取り組みました。DL系とNNUE系の2つのエンジンを改造し、Floodgateでレーティング4500超・1位を達成。その過程で得た「蒸留済みモデルに追加学習は要らない」...

AI アーキテクチャ

Gemini APIで会話データを資産化する:履歴エクスポート・RAGスライド生成・Streamlitダッシュボード

Gemini APIとRTX 5090(VRAM 32GB)を組み合わせ、AIとの対話データを資産化する実践的ガイド。Google Takeoutの不具合を回避する履歴エクスポート手法から、GASを用いた知識ベース構築、Gemma 3を活用...

AI アーキテクチャ

NVIDIA Nemotron-Nano-9B-v2-Japaneseをローカルで動かす:Mamba SSM + Thinkingモード対応

NVIDIAが公開した日本語特化9BパラメータLLM「Nemotron-Nano-9B-v2-Japanese」のローカル実行手順。Mamba SSMアーキテクチャ採用、Thinkingモード対応。uvによる環境構築からTransforme...

AI アーキテクチャ

ローカルLLMを「バッチ処理エンジン」として使う——Nemotronで自分のデータから成果物を自動生成する設計

NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで動かし、開発環境のデータをバッチ処理で分析・構造化する設計。OllamaではなくvLLMを選ぶ理由、NVIDIAスタックの実態(TensorRT非経由)、ファ...

AI アーキテクチャ

LoRAもFTも要らない時代:蒸留済みモデルとどう向き合うか

将棋AIの蒸留実験で得た知見をLLMに適用します。蒸留済みモデルにFTしても無意味か有害、LoRAはプロンプトで代替できます。モデルをいじるのではなく、モデルの周りを設計するのが正解です。...

AI アーキテクチャ

FTS5で173万件の特許データを高速検索する

SQLiteのLIKE検索では実用にならなかった173万件の特許データ検索を、FTS5全文検索で解決。転置インデックス、BM25ランキング、複合検索の実装手順と、MCP連携時のクエリチューニングのノウハウを解説します。...

AI アーキテクチャ

ローカルLLMとFlutterで5-in-1アプリを作る

Desktop PC(RTX 5090)でvLLMを使いローカルLLMを動かし、Flutter Webで5つの機能を1アプリに統合。クラウドにデータを送らないAI開発支援アプリの構築過程と、Flask APIバックエンドとの連携方法を解説し...

AI アーキテクチャ

DuckDuckGo検索 + ローカルLLMで作る無料リサーチエージェント

ddgsライブラリとローカルLLM(Nemotron)を組み合わせて、APIキー不要の無料リサーチエージェントを構築する方法を解説します。RAGパイプラインの実装例やBrave Search APIとの比較も含みます。...

AI アーキテクチャ

Gemini Context Cachingで大規模ドキュメント分析のAPI費用を削減する

Google GeminiのContext Caching機能を活用して、大規模データ分析のAPIコストを削減し、処理時間を短縮する手法を解説します。教師データのキャッシュ化やバッチ処理の具体例を示します。...

AI アーキテクチャ

Gemini 2.5 Flash × Nemotron 9B — クラウドLLMとローカルLLMの最適な役割分担

Gemini 2.5 FlashとNemotron 9Bを組み合わせ、コスト・品質・プライバシーのバランスを取る実装パターンを紹介します。共通インターフェースの設計やエラーハンドリングのコツも解説します。...

AI アーキテクチャ

MinecraftのNPCにローカルLLMで「脳」を与える — Nemotron + Mineflayer実装記

ローカルLLM(Nemotron 9B)をvLLMで実行し、Node.jsのMineflayerを介してMinecraft NPCに自然言語による状況判断・応答能力を与える実装手法を解説します。...

AI アーキテクチャ

ローカルLLM生成 + クラウドLLM整形の2段階パイプライン — Nemotron × Gemini 2.5 Flash

Nemotron 9Bでコンテンツを生成し、Gemini 2.5 Flashで整形・ファクトチェックを行う2段階パイプラインの設計と実装を解説します。thinking漏れ問題への対策も紹介します。...

AI アーキテクチャ

特許検索エンジンをReddit r/LocalLLaMAに投稿したら、2時間で65アップボートと20件超の技術的質問が飛んできた話

自作の無料特許検索エンジンをReddit r/LocalLLaMAに投稿したら2時間で65アップボートと20件超の技術的質問が飛んできた。FTS5 vs ベクトル検索、LLMクエリ拡張、74GB SQLiteの運用など、海外エンジニアとの実...