/通喵千問 →English

PatentLLM SubsidyDB RAG Eng Apps Live GitHub Inquiry
soy-tuber

soy-tuber

個人開発者 / AI研究者

About

個人開発者・AI研究者。RTX 5090を推論専用機として、ローカルLLMとクラウドAPIを組み合わせたプロダクトを一人で設計・開発・運用しています。174万件の米国特許をLLMで処理する特許検索エンジン PatentLLM を開発・公開し、Reddit r/LocalLLaMA で65 upvoteを獲得。GPU推論最適化からフロントエンド、課金、インフラまでフルスタックで完結する開発スタイルです。

Tech Stack

GPU推論
RTX 5090 (32GB VRAM), vLLM, TensorRT-LLM, CUDA, ONNX Runtime, FP8量子化
LLM / AI
Nemotron 9B, Gemini 2.5 Flash/Pro, Claude Code (Opus 4.6), RAG, 蒸留モデル
検索 / データ
SQLite FTS5 (354万件), JSONL, XML, Stripe Checkout, Google Places API
バックエンド
FastAPI, Python 3.11, uv, Ruff, systemd, cron, WSL2
フロントエンド
Flutter (Web/PWA), Streamlit, Remotion (動画生成), VOICEVOX
インフラ / ネットワーク
Cloudflare Tunnel, Tailscale, Caddy, Rclone, Google Drive
AIエージェント
Claude Code hooks, MCP Server, DuckDuckGo + LLMリサーチ, 日報自動生成
OSS / 将棋AI
Floodgate 1位, ONNX蒸留モデル, Mineflayer (Minecraft NPC)

記事一覧 (67件)

AI

Google Places APIの検索精度が異常に高い理由 — FTS5では再現不可能な多層アーキテクチャの正体(英語版のみ公開)

Google Places APIの異常な検索精度はなぜ?FTS5では再現不可能な多層アーキテクチャの「正体」を徹底解説。Googleが誇る検索技術の深部に迫り...

AI

SQLiteのLIKE検索をFTS5で高速化!173万件の特許データを即時検索可能にした技術ブログ

-- FTS5インデックスを構築(数分で完了) CREATE VIRTUAL TABLE cases_fts USING fts5(searchable, co...

AI

SQLite開発を劇的に効率化!Claude Codeで使える公式MCPサーバー活用術

SQLiteは軽量で依存構成が不要なため、多くの開発現場で愛用されていますが、実務では「SELECTクエリを実行したい」「テーブル構造を確認したい」といった基本...

AI

ローカルLLMとFlutterで実現!「秘密データを活かす」5-in-1開発アプリの実話

これらのアプリは「単一HTMLファイル+vLLMのOpenAI互換API」で構築。クラウド経由不要の点が最大の強みでしたが、ユーザーからは「他にないアイデアを」...

AI

Global MCPにsqliteサーバーを追加したものの、PatentLLM分析で0件ヒット!FTS5のキーワード調整とGemini分析の連携で解決

グローバルMCPにsqliteサーバーを追加し、PatentLLMの特許分析を実行しようとしたところ、全仮説で**DBヒット0件**という予期せぬ結果に直面しま...

AI

IP事務所向けSaaS「PatentLLM」の課金システムをStripe Checkoutで実装した話

代わりに**Stripe Checkoutを埋め込む設計**を採用。アプリ内に「Subscribe」ボタンを配置し、ユーザーが直接Stripeの決済画面で入力す...

AI

READMEを読まない開発者に襲う“幻想の罠”――Claude Codeで習慣を強制する3つの戦略

READMEを読むことは、コード品質とチームの生産性を支える**最も基本的な開発マナー**です。 「明日、 README を読んでから実装しよう」ではなく、...

AI

20BモデルのONNX変換とパラメータチューニングで学んだ"対局テスト"の実践ノウハウ

model = policy_value_network("resnet20x256_swish") checkpoint = torch.load("chec...

AI

SoyLM:クラウド不要の軽量RAGツールの実現とドキュメント改善の物語

**主な設計思想**: - シングルファイル設計(FastAPI + JSの1ファイル実装) - 事前分析済みソース(クエリ時の高速化) - SQLite 1つ...

AI

Flutter WebアプリをPWA化する方法

Flutter WebアプリをPWA化し、ネイティブアプリのような使い心地を実現する方法を解説。ホーム画面追加、フルスクリーン化、オフライン対応など、具体的な実...

AI

Tailscaleの技術はどういう点がすごいのか

Tailscaleの真の価値とは?NAT越え自動化、WireGuardの高速性、ゼロトラストのセキュリティでVPNの常識を覆す。シンプルなのに高機能・高セキュリ...

AI

Systemdの開発者について

Systemd開発の立役者、レナート・プータリング氏の思想と経歴に迫ります。共同開発者たちの貢献、従来のinitシステムからの進化、そしてSystemdが目指し...

AI

GTC 2026が静かに告げた本当の転換点──NVIDIAはなぜ「オープン」に賭けたのか

GTC 2026で見えたNVIDIAのオープンソース戦略を分析。NemoClaw、Vera Rubin、フィジカルAI、cuDF/cuVSなど──Linuxの歴...

GPU推論

RTX 40シリーズでLLM爆速!個人開発者のための推論最適化完全ガイド【2026年最新版】

RTX 40シリーズのGPUを持つ個人開発者向けに、最新のOSS推論エンジンと量子化技術を駆使し、LLMを低コストかつ高速に動かす方法をsoy-tuberが実践...

LLM

今日のLLMニュース3選:Qwen最適化、GPT-5.4小型版、Mamba-3アーキテクチャ登場

Qwen最適化、GPT-5.4小型版、Mamba-3アーキテクチャの登場。個人開発者・AI研究者soy-tuberが、LLMの推論効率、アクセシビリティ、そして...

GPU推論

ローカルAI推論の最前線:256GB VRAM、マルチモーダルVLLM、RTXとVision Proの連携

256GB VRAMのローカルLLM、マルチモーダルVLLMの進化、RTXとVision Pro連携のニュースを深掘り。個人開発者soy-tuberが最先端のロ...

AI

AIエージェント開発最前線:オープンソース、Claudeプラグイン、プロンプトインジェクション対策

AIエージェント開発の最前線を、個人開発者soy-tuberが解説。OpenCodeによるオープンソース化、Claude-hudで強化されるデバッグ、そしてOp...

開発ツール

開発者のためのセキュリティ強化:OpenAIによるツール買収、Trivy活用、Docker Hubの課題

AI開発者・個人開発者向けに、OpenAIによるPython開発ツール買収、多機能セキュリティスキャナーTrivy、Docker Hubイメージのセキュリティ課...

Web / インフラ

クラウドとAIの新たな連携:Cloudflare Workers AI、GoogleのOSSセキュリティ、WordPressでのAI活用

Cloudflare Workers AIの進化、GoogleのOSSセキュリティ強化、WordPressでのAI活用トレンドをsoy-tuberが解説。AI開...

開発ツール

OpenAIがAstral(uv / Ruff)を買収 — その意味を推論する

OpenAIがPythonツールチェーンのAstral(uv、Ruff)を買収。OpenAI側の「AIエージェントのランタイム」戦略、Astral側のマネタイズ...

GPU推論

NemoClaw サンドボックスからローカル vLLM を叩く3層ネットワークハック(英語版のみ公開)

NVIDIA NemoClaw (OpenShell) のサンドボックス内から RTX 5090 上の vLLM にアクセスするためのネットワーク突破手順。ip...

GPU推論

ローカルAIが手遅れになる前に解消すべき技術的負債 — NemoClaw から見える NVIDIA の哲学(英語版のみ公開)

ローカルAIエコシステムがOpenAI互換APIを採用したことで生まれた構造的セキュリティ欠陥を対話形式で解説。カーネル層の信頼モデルと3層アーキテクチャの提案...

Web / インフラ

FastAPI が HEAD リクエストに 405 を返す問題と Google インデックス障害の解決(英語版のみ公開)

FastAPI 0.133 + Starlette 0.52 で GET ルートが HEAD に 405 を返し、Google Search Console で...

GPU推論

vLLM vs TensorRT-LLM vs Ollama vs llama.cpp — RTX 5090で選ぶ推論エンジン比較(英語版のみ公開)

RTX 5090でローカルLLM推論エンジン4つを実体験ベースで比較。vLLM、TensorRT-LLM、Ollama、llama.cppの違いを解説。英語版の...

開発ツール

3ヶ月でコードを書いた記録(英語版のみ公開)

3ヶ月でコードを書き始めたプログラミング学習の全記録を公開。短期間でのスキル習得の道のり、挑戦と学び、具体的な方法を詳細に解説。開発初心者が次に進むためのヒント...

開発ツール

SQLite・JSONL・XML・TSVの使い分け — PatentLLMのデータ整理術

特許検索アプリPatentLLMと判例検索アプリHanrei-DBの開発で得たデータ整理のノウハウ。SQLite3による構造化データ管理、JSONLによるLLM...

AI

Nemotron 9B日本語をローカルで動かす — Mamba SSM・Thinkingモード対応

NVIDIAが公開した日本語特化9BパラメータLLM「Nemotron-Nano-9B-v2-Japanese」のローカル実行手順。Mamba SSMアーキテク...

開発ツール

uv入門:pip/venvを置き換えるPython高速パッケージマネージャ

Astral社が開発したRust製Pythonパッケージマネージャuvの導入方法と実践的な使い方を解説。pipの10〜100倍の速度、venv不要のuv run...

開発ツール

AI開発スタックを支えるOSSの系譜:その起源と作り手たち

AI開発スタックを構成する主要OSSの起源と設計思想を、歴史的経緯に沿って整理します。Python、CUDA、SQLite、Ubuntu、ResNet、PyTo...

AI

ローカルLLMでバッチ自動生成 — Nemotronでデータから成果物を作る設計

NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで動かし、開発環境のデータをバッチ処理で分析・構造化する設計。Ollamaではな...

開発ツール

コント:Claude Codeに取り憑かれた男

Claude Codeに脳を完全に乗っ取られたエンジニア武智と、必死に人間界へ引き戻そうとする後輩新山による漫才コント。映画を「トークン消費」と呼び、生まれ変わ...

AI

LoRAもFTも要らない時代:蒸留済みモデルとどう向き合うか

将棋AIの蒸留実験で得た知見をLLMに適用します。蒸留済みモデルにFTしても無意味か有害、LoRAはプロンプトで代替できます。モデルをいじるのではなく、モデルの...

AI

FTS5で354万件の特許データを高速検索する

SQLiteのLIKE検索では実用にならなかった354万件の特許データ検索を、FTS5全文検索で解決。転置インデックス、BM25ランキング、複合検索の実装手順と...

開発ツール

Claude CodeのMCPサーバー活用術

Claude CodeのMCP(Model Context Protocol)サーバー機能を活用し、SQLiteデータベース操作をAIアシスタント内で完結させる...

AI

ローカルLLMとFlutterで5-in-1アプリを作る

Desktop PC(RTX 5090)でvLLMを使いローカルLLMを動かし、Flutter Webで5つの機能を1アプリに統合。クラウドにデータを送らないA...

Web / インフラ

PatentLLMにStripe Checkout課金を実装した話

米国IP事務所向けSaaS「PatentLLM」にStripe Checkout課金を実装した実践記録。カード情報をサーバーに持たない設計、ローカルSQLite...

GPU推論

Nemotron 9BをvLLMで動かしOpenAI互換APIで使う実践ガイド

NVIDIAのNemotron-Nano-9B-v2-JapaneseをvLLMで起動し、OpenAI互換APIとして自作アプリに組み込む方法を解説します。GG...

Web / インフラ

Cloudflare Tunnel + Caddyで複数のWebアプリを自宅サーバーから公開する

Cloudflare TunnelとCaddyリバースプロキシを組み合わせて、WSL2環境から複数のWebアプリを安全に公開する方法を解説します。固定IP不要・...

開発ツール

Claude Codeのhooks機能でポート衝突・危険コマンドを事前に自動防止する

Claude Codeのhooks機能(PreToolUse, UserPromptSubmit)を活用して、ポート衝突や危険コマンド(rm -rf, git ...

開発ツール

Claude Codeのトークン消費を削減する — FTS5ナレッジDB + Tier索引設計

CLAUDE.mdに全情報を記載するとトークン消費が膨大になる問題を、Tier 1索引(軽量インデックス)とTier 2(FTS5 DB)の2層構造で解決する手...

開発ツール

Claude Code + Gemini CLIの使用履歴をcronで毎朝自動集計する日報システム

Claude CodeとGemini CLIの使用履歴をcronジョブで毎朝自動集計し、プロジェクト別のトークン消費量やメッセージ数を可視化する日報システムの構...

AI

DuckDuckGo検索 + ローカルLLMで作る無料リサーチエージェント

ddgsライブラリとローカルLLM(Nemotron)を組み合わせて、APIキー不要の無料リサーチエージェントを構築する方法を解説します。RAGパイプラインの実...

AI

Gemini Context Cachingで大規模ドキュメント分析のAPI費用を削減する

Google GeminiのContext Caching機能を活用して、大規模データ分析のAPIコストを削減し、処理時間を短縮する手法を解説します。教師データ...

AI

Gemini 2.5 Flash × Nemotron 9B — クラウドLLMとローカルLLMの最適な役割分担

Gemini 2.5 FlashとNemotron 9Bを組み合わせ、コスト・品質・プライバシーのバランスを取る実装パターンを紹介します。共通インターフェースの...

開発ツール

google-generativeai → google-genai 移行ガイド

google.generativeaiパッケージの非推奨化に伴い、google-genai SDKへ移行する具体的な手順を解説します。import変更、Gene...

開発ツール

判例PDFをRAGで検索する — Gemini + SQLite FTS5による法務AI検索システム

裁判所の判例PDFをテキスト変換し、SQLite FTS5で全文検索を実現。Gemini APIで争点抽出・要約を自動化する法務AI検索システムの構築手法を解説...

AI

Minecraft NPCにローカルLLMで脳を実装 — Nemotron + Mineflayer

ローカルLLM(Nemotron 9B)をvLLMで実行し、Node.jsのMineflayerを介してMinecraft NPCに自然言語による状況判断・応答...

AI

ローカル×クラウドLLM 2段階パイプライン — Nemotron + Gemini Flash

Nemotron 9Bでコンテンツを生成し、Gemini 2.5 Flashで整形・ファクトチェックを行う2段階パイプラインの設計と実装を解説します。think...

開発ツール

NITE CHRIPデータをFTS5で高速検索する法規制分析ダッシュボード

化学物質リスク情報プラットフォーム(CHRIP)のデータをSQLite FTS5でインデックス化し、Streamlitで法規制の検索・分析を行うダッシュボードの...

GPU推論

RTX 5090 1枚で13プロジェクトを回す個人開発者のポートフォリオ戦略

RTX 5090の32GB VRAMを活用し、将棋AI・LLMアプリ・法務システムなど13プロジェクトを1枚のGPUで運用するための共通基盤設計とリソース管理戦...

GPU推論

RTX 5090 + WSL2で構築する個人AI開発環境 — GPU 32GBをフル活用する実践構成

RTX 5090の32GB VRAMをWSL2環境で最大活用し、vLLM・TensorRT・将棋AI・Streamlitアプリを同居させるAI開発環境の構築手法...

GPU推論

RTX 5090で将棋AI — TensorRT FP8量子化とFloodgate実戦の記録

dlshogi将棋エンジンをRTX 5090上でTensorRT FP8量子化して運用した記録です。Fuka40Bモデルの構造、量子化の効果、Floodgate...

Web / インフラ

Streamlit × Flutter双方向連携をWSL2で実現する

WSL2上のStreamlitとFlutterアプリをNginxプロキシとWebSocketで連携させる実装手法を解説します。CORS問題の解決、Cloudfl...

開発ツール

WSL2でsystemdサービスを使いvLLM・Flask・cronを自動起動する運用術

WSL2でsystemdを有効化し、vLLMサーバー、Flask API、定期タスクをsystemdサービスとして管理する方法を解説します。起動順序の依存関係や...

開発ツール

PatentLLM: 350万件の米国特許を無料検索できるエンジンを作った

SQLite FTS5で350万件の米国特許を高速検索。BM25ランキング、CPC分類フィルタ、Nemotron 9Bによるタグ分類を搭載した無料特許検索エンジ...

AI

「やる気」に頼るのをやめると、才能は開花する。天才数学者・岡潔が遺した「春の心」を巡る7つの知恵

西洋数学の歴史的難問を次々と解決した孤高の天才・岡潔。彼を突き動かしたのは「やる気」ではなく、日本の情緒に根ざした「春の心」でした。興奮を捨て静かな好奇心を育て...

GPU推論

RTX 5090でNemotron 9B — vLLMベンチマークとTRT-LLM比較

RTX 5090上でNemotron Nano 9B v2 JapaneseをvLLM 0.15.1で運用した実測ベンチマーク。単発83 tok/s、バッチ63...

開発ツール

Coders at Work 全15人インデックス — プログラミングの巨人たちへのインタビュー集

Peter Seibel著『Coders at Work』に登場する15人のプログラマーの紹介と読みどころ。UNIX作者Ken Thompson、Erlang作...

AI

特許検索AIをReddit r/LocalLLaMAに投稿したら65 upvoteと20件超の質問が来た話

自作の無料特許検索エンジンをReddit r/LocalLLaMAに投稿したら2時間で65アップボートと20件超の技術的質問が飛んできた。FTS5 vs ベクト...

開発ツール

Claude Code実践ガイド:Opus 4.6によるデバッグ・テスト自動化・CUDA環境構築

AnthropicのCLIツール「Claude Code」とOpus 4.6モデルを用いた開発効率化の実践ガイドです。プロンプト設計によるコスト削減、Flask...

Web / インフラ

RcloneでGoogle Drive自動バックアップ — ヘッドレスOAuth認証とsystemd設定

AI開発で肥大化するデータをGoogle Driveへ退避するため、Rcloneを用いたヘッドレスサーバーでの認証手順と、Systemdによる堅牢な自動バックア...

Web / インフラ

Cloudflare Tunnel実践入門:自宅AIサーバーをポート開放なしでセキュアに公開する

自宅のAIサーバー(RTX 5090搭載)を、ポート開放なしで安全にインターネットへ公開する方法を解説します。Cloudflare Tunnelを活用し、sys...

Web / インフラ

RemotionとVOICEVOXを用いた動画生成の自動化:環境構築からパフォーマンス最適化まで

Reactベースの動画生成フレームワーク「Remotion」と音声合成エンジン「VOICEVOX」を組み合わせた動画生成の自動化手法を解説します。環境構築から、...

AI

Gemini APIで会話データを資産化 — 履歴エクスポート・RAG・Streamlit

Gemini APIとRTX 5090(VRAM 32GB)を組み合わせ、AIとの対話データを資産化する実践的ガイド。Google Takeoutの不具合を回避...

AI

将棋AIに触れて得たもの:Floodgate 1位までの道のりと、蒸留モデルとの向き合い方

LLMとRAGを研究する中で、推論最適化の実験場として将棋AIのOSSに取り組みました。DL系とNNUE系の2つのエンジンを改造し、Floodgateでレーティ...

GPU推論

ローカルLLMのためのハードウェア選定:VRAMの壁を越えるGPU・CPU・メモリ構成の実践

ローカルLLMの推論速度に悩む開発者向けに、VRAM 32GBを搭載したRTX 5090とCore Ultra 9による環境構築の最適解を解説します。VRAM不...

開発ツール

PythonでGoogleドキュメントをAIに読み込ませる — Drive API最小権限設定

AIにGoogleドキュメントを読み込ませる際、URLを直接渡してもアクセスできない問題の解決策を解説します。手作業でのコピペやファイル変換の手間を省くため、G...

Daily Tech Digest 海外15サイトから厳選したAI・開発ニュースを毎日配信