/通喵千問 →English

RAG Eng Cat Mail Live ch GH

Pick Up

AI アーキテクチャ

NVIDIA Nemotron-Nano-9B-v2-Japaneseをローカルで動かす:Mamba SSM + Thinkingモード対応

NVIDIAが公開した日本語特化9BパラメータLLM「Nemotron-Nano-9B-v2-Japanese」のローカル実行手順。Mamba SSMアーキテクチャ採用、Thinkingモード対応。uvによる環境構築からTransforme...

Web / インフラ

Cloudflare Tunnel実践入門:自宅AIサーバーをポート開放なしでセキュアに公開する

自宅のAIサーバー(RTX 5090搭載)を、ポート開放なしで安全にインターネットへ公開する方法を解説します。Cloudflare Tunnelを活用し、systemdによるサービスの永続化や、Cloudflare Accessを用いた認証...

開発ツール

uvによるPython環境管理:pip/venvを置き換える高速パッケージマネージャの導入と実践

Astral社が開発したRust製Pythonパッケージマネージャuvの導入方法と実践的な使い方を解説。pipの10〜100倍の速度、venv不要のuv run、PEP 723インラインメタデータ対応、pyenvを代替するPythonバージ...

開発ツール

AI開発スタックを支えるOSSの系譜:その起源と作り手たち

AI開発スタックを構成する主要OSSの起源と設計思想を、歴史的経緯に沿って整理します。Python、CUDA、SQLite、Ubuntu、ResNet、PyTorch、Streamlit、Cloudflare Tunnel、Unsloth、...

開発ツール

コント:Claude Codeに取り憑かれた男

Claude Codeに脳を完全に乗っ取られたエンジニア武智と、必死に人間界へ引き戻そうとする後輩新山による漫才コント。映画を「トークン消費」と呼び、生まれ変わったら「最初の1コミット目」になりたいと語る武智の暴走が止まらない。...

AI アーキテクチャ

LoRAもFTも要らない時代:蒸留済みモデルとどう向き合うか

将棋AIの蒸留実験で得た知見をLLMに適用します。蒸留済みモデルにFTしても無意味か有害、LoRAはプロンプトで代替できます。モデルをいじるのではなく、モデルの周りを設計するのが正解です。...

gpu-inference

Nemotron-Nano-9B-v2-JapaneseをvLLMで動かし、OpenAI互換APIで自作アプリに組み込む実践ガイド

NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで起動し、OpenAI互換APIとして自作アプリに組み込む方法を解説します。GGUF変換不要・Ollamaのトラブル回避・既存コードのそのまま流用が可能で、3行...

AI アーキテクチャ

特許検索エンジンをReddit r/LocalLLaMAに投稿したら、2時間で65アップボートと20件超の技術的質問が飛んできた話

自作の無料特許検索エンジンをReddit r/LocalLLaMAに投稿したら2時間で65アップボートと20件超の技術的質問が飛んできた。FTS5 vs ベクトル検索、LLMクエリ拡張、74GB SQLiteの運用など、海外エンジニアとの実...


開発ツール

SQLite・JSONL・XML・TSVを使い分けるデータ整理術:PatentLLMとHanrei-DBの実装から

特許検索アプリPatentLLMと判例検索アプリHanrei-DBの開発で得たデータ整理のノウハウ。SQLite3による構造化データ管理、JSONLによるLLM学習データ構築、XMLによるブログ記事管理、TSV/CSVによる外部データ取り込...

開発ツール

PythonでGoogleドキュメントをAIに読み込ませる方法:Drive APIとOAuth 2.0の最小権限設定

AIにGoogleドキュメントを読み込ませる際、URLを直接渡してもアクセスできない問題の解決策を解説します。手作業でのコピペやファイル変換の手間を省くため、Google Drive APIとOAuth 2.0を活用し、最小権限(drive...

gpu-inference

ローカルLLMのためのハードウェア選定:VRAMの壁を越えるGPU・CPU・メモリ構成の実践

ローカルLLMの推論速度に悩む開発者向けに、VRAM 32GBを搭載したRTX 5090とCore Ultra 9による環境構築の最適解を解説します。VRAM不足によるPCIeボトルネックなどの失敗談を交えつつ、Windows 11 + W...

AI アーキテクチャ

将棋AIに触れて得たもの:Floodgate 1位までの道のりと、蒸留モデルとの向き合い方

LLMとRAGを研究する中で、推論最適化の実験場として将棋AIのOSSに取り組みました。DL系とNNUE系の2つのエンジンを改造し、Floodgateでレーティング4500超・1位を達成。その過程で得た「蒸留済みモデルに追加学習は要らない」...

AI アーキテクチャ

Gemini APIで会話データを資産化する:履歴エクスポート・RAGスライド生成・Streamlitダッシュボード

Gemini APIとRTX 5090(VRAM 32GB)を組み合わせ、AIとの対話データを資産化する実践的ガイド。Google Takeoutの不具合を回避する履歴エクスポート手法から、GASを用いた知識ベース構築、Gemma 3を活用...

Web / インフラ

RemotionとVOICEVOXを用いた動画生成の自動化:環境構築からパフォーマンス最適化まで

Reactベースの動画生成フレームワーク「Remotion」と音声合成エンジン「VOICEVOX」を組み合わせた動画生成の自動化手法を解説します。環境構築から、ffmpegのダウンロード問題やフレーム数の誤読といったエラーの解決策、そしてR...

Web / インフラ

Rcloneを用いたヘッドレスサーバーのGoogle Drive認証とSystemd自動バックアップ構築手順

AI開発で肥大化するデータをGoogle Driveへ退避するため、Rcloneを用いたヘッドレスサーバーでの認証手順と、Systemdによる堅牢な自動バックアップシステムの構築方法を解説します。ブラウザが開かない環境での認証の壁を越え、R...

開発ツール

Claude Code実践ガイド:Opus 4.6によるデバッグ・テスト自動化・CUDA環境構築

AnthropicのCLIツール「Claude Code」とOpus 4.6モデルを用いた開発効率化の実践ガイドです。プロンプト設計によるコスト削減、Flaskアプリのデバッグ事例、pytestテスト自動生成、RTX 5090+CUDA 1...

AI アーキテクチャ

ローカルLLMを「バッチ処理エンジン」として使う——Nemotronで自分のデータから成果物を自動生成する設計

NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで動かし、開発環境のデータをバッチ処理で分析・構造化する設計。OllamaではなくvLLMを選ぶ理由、NVIDIAスタックの実態(TensorRT非経由)、ファ...

AI アーキテクチャ

FTS5で173万件の特許データを高速検索する

SQLiteのLIKE検索では実用にならなかった173万件の特許データ検索を、FTS5全文検索で解決。転置インデックス、BM25ランキング、複合検索の実装手順と、MCP連携時のクエリチューニングのノウハウを解説します。...

開発ツール

Claude CodeのMCPサーバー活用術

Claude CodeのMCP(Model Context Protocol)サーバー機能を活用し、SQLiteデータベース操作をAIアシスタント内で完結させる方法。公式SQLite MCPサーバーの導入手順と、PatentLLMでの実践的...

AI アーキテクチャ

ローカルLLMとFlutterで5-in-1アプリを作る

Desktop PC(RTX 5090)でvLLMを使いローカルLLMを動かし、Flutter Webで5つの機能を1アプリに統合。クラウドにデータを送らないAI開発支援アプリの構築過程と、Flask APIバックエンドとの連携方法を解説し...

Web / インフラ

PatentLLMにStripe Checkout課金を実装した話

米国IP事務所向けSaaS「PatentLLM」にStripe Checkout課金を実装した実践記録。カード情報をサーバーに持たない設計、ローカルSQLiteキャッシュによるAPI呼び出し最小化、環境変数による課金ゲート制御を解説します。...

Web / インフラ

Cloudflare Tunnel + Caddyで複数のWebアプリを自宅サーバーから公開する

Cloudflare TunnelとCaddyリバースプロキシを組み合わせて、WSL2環境から複数のWebアプリを安全に公開する方法を解説します。固定IP不要・SSL自動化・セキュリティヘッダー付与を実現する構成です。...

開発ツール

Claude Codeのhooks機能でポート衝突・危険コマンドを事前に自動防止する

Claude Codeのhooks機能(PreToolUse, UserPromptSubmit)を活用して、ポート衝突や危険コマンド(rm -rf, git push --force等)の実行を事前に自動防止する手法を解説します。...

開発ツール

Claude Codeのトークン消費を削減する — FTS5ナレッジDB + Tier索引設計

CLAUDE.mdに全情報を記載するとトークン消費が膨大になる問題を、Tier 1索引(軽量インデックス)とTier 2(FTS5 DB)の2層構造で解決する手法を紹介します。Nemotronによる分類とGeminiによる選別パイプラインも...

開発ツール

Claude Code + Gemini CLIの使用履歴をcronで毎朝自動集計する日報システム

Claude CodeとGemini CLIの使用履歴をcronジョブで毎朝自動集計し、プロジェクト別のトークン消費量やメッセージ数を可視化する日報システムの構築方法を解説します。...

AI アーキテクチャ

DuckDuckGo検索 + ローカルLLMで作る無料リサーチエージェント

ddgsライブラリとローカルLLM(Nemotron)を組み合わせて、APIキー不要の無料リサーチエージェントを構築する方法を解説します。RAGパイプラインの実装例やBrave Search APIとの比較も含みます。...

AI アーキテクチャ

Gemini Context Cachingで大規模ドキュメント分析のAPI費用を削減する

Google GeminiのContext Caching機能を活用して、大規模データ分析のAPIコストを削減し、処理時間を短縮する手法を解説します。教師データのキャッシュ化やバッチ処理の具体例を示します。...

AI アーキテクチャ

Gemini 2.5 Flash × Nemotron 9B — クラウドLLMとローカルLLMの最適な役割分担

Gemini 2.5 FlashとNemotron 9Bを組み合わせ、コスト・品質・プライバシーのバランスを取る実装パターンを紹介します。共通インターフェースの設計やエラーハンドリングのコツも解説します。...

開発ツール

google-generativeai → google-genai 移行ガイド

google.generativeaiパッケージの非推奨化に伴い、google-genai SDKへ移行する具体的な手順を解説します。import変更、GenerateContentConfig設定、既存コードの移行例を示します。...

開発ツール

判例PDFをRAGで検索する — Gemini + SQLite FTS5による法務AI検索システム

裁判所の判例PDFをテキスト変換し、SQLite FTS5で全文検索を実現。Gemini APIで争点抽出・要約を自動化する法務AI検索システムの構築手法を解説します。...

AI アーキテクチャ

MinecraftのNPCにローカルLLMで「脳」を与える — Nemotron + Mineflayer実装記

ローカルLLM(Nemotron 9B)をvLLMで実行し、Node.jsのMineflayerを介してMinecraft NPCに自然言語による状況判断・応答能力を与える実装手法を解説します。...

AI アーキテクチャ

ローカルLLM生成 + クラウドLLM整形の2段階パイプライン — Nemotron × Gemini 2.5 Flash

Nemotron 9Bでコンテンツを生成し、Gemini 2.5 Flashで整形・ファクトチェックを行う2段階パイプラインの設計と実装を解説します。thinking漏れ問題への対策も紹介します。...

開発ツール

NITE CHRIPデータをFTS5で高速検索する法規制分析ダッシュボード

化学物質リスク情報プラットフォーム(CHRIP)のデータをSQLite FTS5でインデックス化し、Streamlitで法規制の検索・分析を行うダッシュボードの構築手法を解説します。...

gpu-inference

RTX 5090 1枚で13プロジェクトを回す個人開発者のポートフォリオ戦略

RTX 5090の32GB VRAMを活用し、将棋AI・LLMアプリ・法務システムなど13プロジェクトを1枚のGPUで運用するための共通基盤設計とリソース管理戦略を解説します。...

gpu-inference

RTX 5090 + WSL2で構築する個人AI開発環境 — GPU 32GBをフル活用する実践構成

RTX 5090の32GB VRAMをWSL2環境で最大活用し、vLLM・TensorRT・将棋AI・Streamlitアプリを同居させるAI開発環境の構築手法を解説します。...

gpu-inference

RTX 5090で将棋AI — TensorRT FP8量子化とFloodgate実戦の記録

dlshogi将棋エンジンをRTX 5090上でTensorRT FP8量子化して運用した記録です。Fuka40Bモデルの構造、量子化の効果、Floodgate実戦結果、ハイブリッドシステムの設計を解説します。...

Web / インフラ

WSL2環境で実現するStreamlitバックエンド × Flutterフロントエンドの双方向連携

WSL2上のStreamlitとFlutterアプリをNginxプロキシとWebSocketで連携させる実装手法を解説します。CORS問題の解決、Cloudflare Tunnelによる安全な公開方法も紹介します。...

開発ツール

WSL2でsystemdサービスを使いvLLM・Flask・cronを自動起動する運用術

WSL2でsystemdを有効化し、vLLMサーバー、Flask API、定期タスクをsystemdサービスとして管理する方法を解説します。起動順序の依存関係やjournalctlによるログ監視も紹介します。...

開発ツール

PatentLLM: 350万件の米国特許を無料検索できるエンジンを作った

SQLite FTS5で350万件の米国特許を高速検索。BM25ランキング、CPC分類フィルタ、Nemotron 9Bによるタグ分類を搭載した無料特許検索エンジンの技術解説。...

開発ツール

Coders at Work 全15人インデックス — プログラミングの巨人たちへのインタビュー集

Peter Seibel著『Coders at Work』に登場する15人のプログラマーの紹介と読みどころ。UNIX作者Ken Thompson、Erlang作者Joe Armstrong、JavaScript作者Brendan Eich、...


LLM研究

Research

Nemotron Lab

vLLM推論サーバー研究環境