soy-tuber

個人開発者 / AI研究者

About

個人開発者・AI研究者。RTX 5090を推論専用機として、ローカルLLMとクラウドAPIを組み合わせたプロダクトを一人で設計・開発・運用しています。174万件の米国特許をLLMで処理する特許検索エンジン PatentLLM を開発・公開し、Reddit r/LocalLLaMA で65 upvoteを獲得。GPU推論最適化からフロントエンド、課金、インフラまでフルスタックで完結する開発スタイルです。

GitHub Zenn Qiita Dev.to PatentLLM

Tech Stack

GPU推論
RTX 5090 (32GB VRAM), vLLM, TensorRT-LLM, CUDA, ONNX Runtime, FP8量子化

LLM / AI
Nemotron 9B, Gemini 2.5 Flash/Pro, Claude Code (Opus 4.6), RAG, 蒸留モデル

検索 / データ
SQLite FTS5 (354万件), JSONL, XML, Stripe Checkout, Google Places API

バックエンド
FastAPI, Python 3.11, uv, Ruff, systemd, cron, WSL2

フロントエンド
Flutter (Web/PWA), Streamlit, Remotion (動画生成), VOICEVOX

インフラ / ネットワーク
Cloudflare Tunnel, Tailscale, Caddy, Rclone, Google Drive

AIエージェント
Claude Code hooks, MCP Server, DuckDuckGo + LLMリサーチ, 日報自動生成

OSS / 将棋AI
Floodgate 1位, ONNX蒸留モデル, Mineflayer (Minecraft NPC)

記事一覧 (67件)

Google Places APIの検索精度が異常に高い理由 — FTS5では再現不可能な多層アーキテクチャの正体（英語版のみ公開）

Google Places APIの異常な検索精度はなぜ？FTS5では再現不可能な多層アーキテクチャの「正体」を徹底解説。Googleが誇る検索技術の深部に迫り...

SQLiteのLIKE検索をFTS5で高速化！173万件の特許データを即時検索可能にした技術ブログ

-- FTS5インデックスを構築（数分で完了） CREATE VIRTUAL TABLE cases_fts USING fts5(searchable, co...

SQLite開発を劇的に効率化！Claude Codeで使える公式MCPサーバー活用術

SQLiteは軽量で依存構成が不要なため、多くの開発現場で愛用されていますが、実務では「SELECTクエリを実行したい」「テーブル構造を確認したい」といった基本...

ローカルLLMとFlutterで実現！「秘密データを活かす」5-in-1開発アプリの実話

これらのアプリは「単一HTMLファイル＋vLLMのOpenAI互換API」で構築。クラウド経由不要の点が最大の強みでしたが、ユーザーからは「他にないアイデアを」...

Global MCPにsqliteサーバーを追加したものの、PatentLLM分析で0件ヒット！FTS5のキーワード調整とGemini分析の連携で解決

グローバルMCPにsqliteサーバーを追加し、PatentLLMの特許分析を実行しようとしたところ、全仮説で**DBヒット0件**という予期せぬ結果に直面しま...

IP事務所向けSaaS「PatentLLM」の課金システムをStripe Checkoutで実装した話

代わりに**Stripe Checkoutを埋め込む設計**を採用。アプリ内に「Subscribe」ボタンを配置し、ユーザーが直接Stripeの決済画面で入力す...

READMEを読まない開発者に襲う“幻想の罠”――Claude Codeで習慣を強制する3つの戦略

READMEを読むことは、コード品質とチームの生産性を支える**最も基本的な開発マナー**です。「明日、 README を読んでから実装しよう」ではなく、...

20BモデルのONNX変換とパラメータチューニングで学んだ"対局テスト"の実践ノウハウ

model = policy_value_network("resnet20x256_swish") checkpoint = torch.load("chec...

SoyLM：クラウド不要の軽量RAGツールの実現とドキュメント改善の物語

**主な設計思想**: - シングルファイル設計（FastAPI + JSの1ファイル実装） - 事前分析済みソース（クエリ時の高速化） - SQLite 1つ...

Flutter WebアプリをPWA化する方法

Flutter WebアプリをPWA化し、ネイティブアプリのような使い心地を実現する方法を解説。ホーム画面追加、フルスクリーン化、オフライン対応など、具体的な実...

Tailscaleの技術はどういう点がすごいのか

Tailscaleの真の価値とは？NAT越え自動化、WireGuardの高速性、ゼロトラストのセキュリティでVPNの常識を覆す。シンプルなのに高機能・高セキュリ...

Systemdの開発者について

Systemd開発の立役者、レナート・プータリング氏の思想と経歴に迫ります。共同開発者たちの貢献、従来のinitシステムからの進化、そしてSystemdが目指し...

GTC 2026が静かに告げた本当の転換点──NVIDIAはなぜ「オープン」に賭けたのか

GTC 2026で見えたNVIDIAのオープンソース戦略を分析。NemoClaw、Vera Rubin、フィジカルAI、cuDF/cuVSなど──Linuxの歴...

GPU推論

RTX 40シリーズでLLM爆速！個人開発者のための推論最適化完全ガイド【2026年最新版】

RTX 40シリーズのGPUを持つ個人開発者向けに、最新のOSS推論エンジンと量子化技術を駆使し、LLMを低コストかつ高速に動かす方法をsoy-tuberが実践...

LLM

今日のLLMニュース3選：Qwen最適化、GPT-5.4小型版、Mamba-3アーキテクチャ登場

Qwen最適化、GPT-5.4小型版、Mamba-3アーキテクチャの登場。個人開発者・AI研究者soy-tuberが、LLMの推論効率、アクセシビリティ、そして...

GPU推論

ローカルAI推論の最前線：256GB VRAM、マルチモーダルVLLM、RTXとVision Proの連携

256GB VRAMのローカルLLM、マルチモーダルVLLMの進化、RTXとVision Pro連携のニュースを深掘り。個人開発者soy-tuberが最先端のロ...

AIエージェント開発最前線：オープンソース、Claudeプラグイン、プロンプトインジェクション対策

AIエージェント開発の最前線を、個人開発者soy-tuberが解説。OpenCodeによるオープンソース化、Claude-hudで強化されるデバッグ、そしてOp...

soy-tuber

About

Tech Stack

記事一覧 (67件)

Google Places APIの検索精度が異常に高い理由 — FTS5では再現不可能な多層アーキテクチャの正体（英語版のみ公開）

SQLiteのLIKE検索をFTS5で高速化！173万件の特許データを即時検索可能にした技術ブログ

SQLite開発を劇的に効率化！Claude Codeで使える公式MCPサーバー活用術

ローカルLLMとFlutterで実現！「秘密データを活かす」5-in-1開発アプリの実話

Global MCPにsqliteサーバーを追加したものの、PatentLLM分析で0件ヒット！FTS5のキーワード調整とGemini分析の連携で解決

IP事務所向けSaaS「PatentLLM」の課金システムをStripe Checkoutで実装した話

READMEを読まない開発者に襲う“幻想の罠”――Claude Codeで習慣を強制する3つの戦略

20BモデルのONNX変換とパラメータチューニングで学んだ"対局テスト"の実践ノウハウ

SoyLM：クラウド不要の軽量RAGツールの実現とドキュメント改善の物語

Flutter WebアプリをPWA化する方法

Tailscaleの技術はどういう点がすごいのか

Systemdの開発者について

GTC 2026が静かに告げた本当の転換点──NVIDIAはなぜ「オープン」に賭けたのか

RTX 40シリーズでLLM爆速！個人開発者のための推論最適化完全ガイド【2026年最新版】

今日のLLMニュース3選：Qwen最適化、GPT-5.4小型版、Mamba-3アーキテクチャ登場

ローカルAI推論の最前線：256GB VRAM、マルチモーダルVLLM、RTXとVision Proの連携

AIエージェント開発最前線：オープンソース、Claudeプラグイン、プロンプトインジェクション対策

開発者のためのセキュリティ強化：OpenAIによるツール買収、Trivy活用、Docker Hubの課題

クラウドとAIの新たな連携：Cloudflare Workers AI、GoogleのOSSセキュリティ、WordPressでのAI活用

OpenAIがAstral（uv / Ruff）を買収 — その意味を推論する

NemoClaw サンドボックスからローカル vLLM を叩く3層ネットワークハック（英語版のみ公開）

ローカルAIが手遅れになる前に解消すべき技術的負債 — NemoClaw から見える NVIDIA の哲学（英語版のみ公開）

FastAPI が HEAD リクエストに 405 を返す問題と Google インデックス障害の解決（英語版のみ公開）

vLLM vs TensorRT-LLM vs Ollama vs llama.cpp — RTX 5090で選ぶ推論エンジン比較（英語版のみ公開）

3ヶ月でコードを書いた記録（英語版のみ公開）

SQLite・JSONL・XML・TSVの使い分け — PatentLLMのデータ整理術

Nemotron 9B日本語をローカルで動かす — Mamba SSM・Thinkingモード対応

uv入門：pip/venvを置き換えるPython高速パッケージマネージャ

AI開発スタックを支えるOSSの系譜：その起源と作り手たち

ローカルLLMでバッチ自動生成 — Nemotronでデータから成果物を作る設計

コント：Claude Codeに取り憑かれた男

LoRAもFTも要らない時代：蒸留済みモデルとどう向き合うか

FTS5で354万件の特許データを高速検索する

Claude CodeのMCPサーバー活用術

ローカルLLMとFlutterで5-in-1アプリを作る

PatentLLMにStripe Checkout課金を実装した話

Nemotron 9BをvLLMで動かしOpenAI互換APIで使う実践ガイド

Cloudflare Tunnel + Caddyで複数のWebアプリを自宅サーバーから公開する

Claude Codeのhooks機能でポート衝突・危険コマンドを事前に自動防止する

Claude Codeのトークン消費を削減する — FTS5ナレッジDB + Tier索引設計

Claude Code + Gemini CLIの使用履歴をcronで毎朝自動集計する日報システム

DuckDuckGo検索 + ローカルLLMで作る無料リサーチエージェント

Gemini Context Cachingで大規模ドキュメント分析のAPI費用を削減する

Gemini 2.5 Flash × Nemotron 9B — クラウドLLMとローカルLLMの最適な役割分担

google-generativeai → google-genai 移行ガイド

判例PDFをRAGで検索する — Gemini + SQLite FTS5による法務AI検索システム

Minecraft NPCにローカルLLMで脳を実装 — Nemotron + Mineflayer

ローカル×クラウドLLM 2段階パイプライン — Nemotron + Gemini Flash

NITE CHRIPデータをFTS5で高速検索する法規制分析ダッシュボード

RTX 5090 1枚で13プロジェクトを回す個人開発者のポートフォリオ戦略

RTX 5090 + WSL2で構築する個人AI開発環境 — GPU 32GBをフル活用する実践構成

RTX 5090で将棋AI — TensorRT FP8量子化とFloodgate実戦の記録

Streamlit × Flutter双方向連携をWSL2で実現する

WSL2でsystemdサービスを使いvLLM・Flask・cronを自動起動する運用術

PatentLLM: 350万件の米国特許を無料検索できるエンジンを作った

「やる気」に頼るのをやめると、才能は開花する。天才数学者・岡潔が遺した「春の心」を巡る7つの知恵

RTX 5090でNemotron 9B — vLLMベンチマークとTRT-LLM比較

Coders at Work 全15人インデックス — プログラミングの巨人たちへのインタビュー集

特許検索AIをReddit r/LocalLLaMAに投稿したら65 upvoteと20件超の質問が来た話

Claude Code実践ガイド：Opus 4.6によるデバッグ・テスト自動化・CUDA環境構築

RcloneでGoogle Drive自動バックアップ — ヘッドレスOAuth認証とsystemd設定

Cloudflare Tunnel実践入門：自宅AIサーバーをポート開放なしでセキュアに公開する

RemotionとVOICEVOXを用いた動画生成の自動化：環境構築からパフォーマンス最適化まで

Gemini APIで会話データを資産化 — 履歴エクスポート・RAG・Streamlit

将棋AIに触れて得たもの：Floodgate 1位までの道のりと、蒸留モデルとの向き合い方

ローカルLLMのためのハードウェア選定：VRAMの壁を越えるGPU・CPU・メモリ構成の実践

PythonでGoogleドキュメントをAIに読み込ませる — Drive API最小権限設定