NVIDIAが公開した日本語特化9BパラメータLLM「Nemotron-Nano-9B-v2-Japanese」のローカル実行手順。Mamba SSMアーキテクチャ採用、Thinkingモード対応。uvによる環境構築からTransforme...
自宅のAIサーバー(RTX 5090搭載)を、ポート開放なしで安全にインターネットへ公開する方法を解説します。Cloudflare Tunnelを活用し、systemdによるサービスの永続化や、Cloudflare Accessを用いた認証...
Astral社が開発したRust製Pythonパッケージマネージャuvの導入方法と実践的な使い方を解説。pipの10〜100倍の速度、venv不要のuv run、PEP 723インラインメタデータ対応、pyenvを代替するPythonバージ...
AI開発スタックを構成する主要OSSの起源と設計思想を、歴史的経緯に沿って整理します。Python、CUDA、SQLite、Ubuntu、ResNet、PyTorch、Streamlit、Cloudflare Tunnel、Unsloth、...
Claude Codeに脳を完全に乗っ取られたエンジニア武智と、必死に人間界へ引き戻そうとする後輩新山による漫才コント。映画を「トークン消費」と呼び、生まれ変わったら「最初の1コミット目」になりたいと語る武智の暴走が止まらない。...
将棋AIの蒸留実験で得た知見をLLMに適用します。蒸留済みモデルにFTしても無意味か有害、LoRAはプロンプトで代替できます。モデルをいじるのではなく、モデルの周りを設計するのが正解です。...
NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで起動し、OpenAI互換APIとして自作アプリに組み込む方法を解説します。GGUF変換不要・Ollamaのトラブル回避・既存コードのそのまま流用が可能で、3行...
自作の無料特許検索エンジンをReddit r/LocalLLaMAに投稿したら2時間で65アップボートと20件超の技術的質問が飛んできた。FTS5 vs ベクトル検索、LLMクエリ拡張、74GB SQLiteの運用など、海外エンジニアとの実...
特許検索アプリPatentLLMと判例検索アプリHanrei-DBの開発で得たデータ整理のノウハウ。SQLite3による構造化データ管理、JSONLによるLLM学習データ構築、XMLによるブログ記事管理、TSV/CSVによる外部データ取り込...
AIにGoogleドキュメントを読み込ませる際、URLを直接渡してもアクセスできない問題の解決策を解説します。手作業でのコピペやファイル変換の手間を省くため、Google Drive APIとOAuth 2.0を活用し、最小権限(drive...
ローカルLLMの推論速度に悩む開発者向けに、VRAM 32GBを搭載したRTX 5090とCore Ultra 9による環境構築の最適解を解説します。VRAM不足によるPCIeボトルネックなどの失敗談を交えつつ、Windows 11 + W...
LLMとRAGを研究する中で、推論最適化の実験場として将棋AIのOSSに取り組みました。DL系とNNUE系の2つのエンジンを改造し、Floodgateでレーティング4500超・1位を達成。その過程で得た「蒸留済みモデルに追加学習は要らない」...
Gemini APIとRTX 5090(VRAM 32GB)を組み合わせ、AIとの対話データを資産化する実践的ガイド。Google Takeoutの不具合を回避する履歴エクスポート手法から、GASを用いた知識ベース構築、Gemma 3を活用...
Reactベースの動画生成フレームワーク「Remotion」と音声合成エンジン「VOICEVOX」を組み合わせた動画生成の自動化手法を解説します。環境構築から、ffmpegのダウンロード問題やフレーム数の誤読といったエラーの解決策、そしてR...
AI開発で肥大化するデータをGoogle Driveへ退避するため、Rcloneを用いたヘッドレスサーバーでの認証手順と、Systemdによる堅牢な自動バックアップシステムの構築方法を解説します。ブラウザが開かない環境での認証の壁を越え、R...
AnthropicのCLIツール「Claude Code」とOpus 4.6モデルを用いた開発効率化の実践ガイドです。プロンプト設計によるコスト削減、Flaskアプリのデバッグ事例、pytestテスト自動生成、RTX 5090+CUDA 1...
NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで動かし、開発環境のデータをバッチ処理で分析・構造化する設計。OllamaではなくvLLMを選ぶ理由、NVIDIAスタックの実態(TensorRT非経由)、ファ...
SQLiteのLIKE検索では実用にならなかった173万件の特許データ検索を、FTS5全文検索で解決。転置インデックス、BM25ランキング、複合検索の実装手順と、MCP連携時のクエリチューニングのノウハウを解説します。...
Claude CodeのMCP(Model Context Protocol)サーバー機能を活用し、SQLiteデータベース操作をAIアシスタント内で完結させる方法。公式SQLite MCPサーバーの導入手順と、PatentLLMでの実践的...
Desktop PC(RTX 5090)でvLLMを使いローカルLLMを動かし、Flutter Webで5つの機能を1アプリに統合。クラウドにデータを送らないAI開発支援アプリの構築過程と、Flask APIバックエンドとの連携方法を解説し...
米国IP事務所向けSaaS「PatentLLM」にStripe Checkout課金を実装した実践記録。カード情報をサーバーに持たない設計、ローカルSQLiteキャッシュによるAPI呼び出し最小化、環境変数による課金ゲート制御を解説します。...
Cloudflare TunnelとCaddyリバースプロキシを組み合わせて、WSL2環境から複数のWebアプリを安全に公開する方法を解説します。固定IP不要・SSL自動化・セキュリティヘッダー付与を実現する構成です。...
Claude Codeのhooks機能(PreToolUse, UserPromptSubmit)を活用して、ポート衝突や危険コマンド(rm -rf, git push --force等)の実行を事前に自動防止する手法を解説します。...
CLAUDE.mdに全情報を記載するとトークン消費が膨大になる問題を、Tier 1索引(軽量インデックス)とTier 2(FTS5 DB)の2層構造で解決する手法を紹介します。Nemotronによる分類とGeminiによる選別パイプラインも...
Claude CodeとGemini CLIの使用履歴をcronジョブで毎朝自動集計し、プロジェクト別のトークン消費量やメッセージ数を可視化する日報システムの構築方法を解説します。...
ddgsライブラリとローカルLLM(Nemotron)を組み合わせて、APIキー不要の無料リサーチエージェントを構築する方法を解説します。RAGパイプラインの実装例やBrave Search APIとの比較も含みます。...
Google GeminiのContext Caching機能を活用して、大規模データ分析のAPIコストを削減し、処理時間を短縮する手法を解説します。教師データのキャッシュ化やバッチ処理の具体例を示します。...
Gemini 2.5 FlashとNemotron 9Bを組み合わせ、コスト・品質・プライバシーのバランスを取る実装パターンを紹介します。共通インターフェースの設計やエラーハンドリングのコツも解説します。...
google.generativeaiパッケージの非推奨化に伴い、google-genai SDKへ移行する具体的な手順を解説します。import変更、GenerateContentConfig設定、既存コードの移行例を示します。...
裁判所の判例PDFをテキスト変換し、SQLite FTS5で全文検索を実現。Gemini APIで争点抽出・要約を自動化する法務AI検索システムの構築手法を解説します。...
ローカルLLM(Nemotron 9B)をvLLMで実行し、Node.jsのMineflayerを介してMinecraft NPCに自然言語による状況判断・応答能力を与える実装手法を解説します。...
Nemotron 9Bでコンテンツを生成し、Gemini 2.5 Flashで整形・ファクトチェックを行う2段階パイプラインの設計と実装を解説します。thinking漏れ問題への対策も紹介します。...
化学物質リスク情報プラットフォーム(CHRIP)のデータをSQLite FTS5でインデックス化し、Streamlitで法規制の検索・分析を行うダッシュボードの構築手法を解説します。...
RTX 5090の32GB VRAMを活用し、将棋AI・LLMアプリ・法務システムなど13プロジェクトを1枚のGPUで運用するための共通基盤設計とリソース管理戦略を解説します。...
RTX 5090の32GB VRAMをWSL2環境で最大活用し、vLLM・TensorRT・将棋AI・Streamlitアプリを同居させるAI開発環境の構築手法を解説します。...
dlshogi将棋エンジンをRTX 5090上でTensorRT FP8量子化して運用した記録です。Fuka40Bモデルの構造、量子化の効果、Floodgate実戦結果、ハイブリッドシステムの設計を解説します。...
WSL2上のStreamlitとFlutterアプリをNginxプロキシとWebSocketで連携させる実装手法を解説します。CORS問題の解決、Cloudflare Tunnelによる安全な公開方法も紹介します。...
WSL2でsystemdを有効化し、vLLMサーバー、Flask API、定期タスクをsystemdサービスとして管理する方法を解説します。起動順序の依存関係やjournalctlによるログ監視も紹介します。...
SQLite FTS5で350万件の米国特許を高速検索。BM25ランキング、CPC分類フィルタ、Nemotron 9Bによるタグ分類を搭載した無料特許検索エンジンの技術解説。...
Peter Seibel著『Coders at Work』に登場する15人のプログラマーの紹介と読みどころ。UNIX作者Ken Thompson、Erlang作者Joe Armstrong、JavaScript作者Brendan Eich、...
vLLM推論サーバー研究環境