v3 — AIエンジニアの技術を堀にした完全自走3案

🧠 v3の核心テーゼ — 技術的深さで「自走 vs 堀」のジレンマを解く

v1の辛口評価が暴いた死因は「AIを統合できるが差別化にならない＝技術障壁の消滅＝誰でもノーコードで複製」でした。しかし——本物のML/データエンジニアにしか作れない深い技術（蒸留・独自データパイプライン・オンプレMLOps・eval設計）は、ラッパー勢が原理的に複製できない堀。しかもその堀は「一度システムに作り込めば人手不要」なので、高い自走度と堀を両立できる。

純粋自走（v1の10案）

誰でも複製＝堀ゼロ。本家値下げ・コモディティ化で死亡

→

v3：技術的深さが堀 × 自走70-75%

本家が原理的に降りられない領域に、あなたの最深武器を集中投下

あなたの武器（ヒアリング結果）= そのまま堀

🔬

ML/モデル開発

ファインチューン・蒸留・QLoRA・PyTorch

🗄️

データエンジ

ETL・ベクトルDB・PII処理・大規模処理

🛠️

フルスタック+インフラ

構築〜デプロイ〜運用を一人完結

💼

収益化実績

AI受託/PoC・自社SaaS・精度改善

013案のポートフォリオ構造

時間軸×リスクで補完。技術スタック（蒸留・eval・verifier・自走MLOps）を共有し、10並列＋t3.large 1台で並行運用可能。Case3の即金がCase1/2のCAC（営業期間）を食い繋ぐ設計。

短期：最速現金エンジン

③ VerifierKit

コード実行系RL環境＆verifierをbounty現金化。2週間で実弾、評判を関係性資本に複利変換。

初期月10〜50万 → 50〜200万

中期：高粗利サブスク

② EvalForge

開発者向けドメイン特化eval合成＋蒸留judge。採点サブスクは粗利99%。継続収益。

積み上げで月100〜500万

長期：データ堀×自走運用

① OnPrem Distillery

規制下・閉域専用の特化モデル蒸留＆自走MLOps。本家が届けられないデータ主権が堀。

運用積み上げで月200〜1,000万

02厳選プラン詳細

picks&shovels / 規制下・データ主権特化の蒸留＋自走MLOps（受託先行→運用サブスク）

OnPrem Distillery — 規制下・閉域専用の特化モデル蒸留＆自走運用基盤

本家APIを使えない（PHI/オンプレ/低レイテンシ/監査要件）企業のため、顧客の閉域内で動く特化小型モデルを蒸留し、ドリフト再学習・eval・ロールバックまで自走運用。価値は「安さ」でなく「本家が原理的に届けられないデータ主権と低レイテンシ」。

なぜ最強1位か

検証で全蒸留案を殺した3死因（本家managed蒸留の内包・frontier値下げで削減分母蒸発・self-host推論の逆ザヤ）を、価値命題を「安さ」から「本家が構造的に提供不能な閉域/オンプレ/低レイテンシ/監査」へ移すことで同時に無効化。あなたの最深武器（蒸留＋データエンジ＋インフラ自走）がそのまま堀になる唯一の設計。

🔨 ストレステスト → ブラッシュアップ

WebSearch裏取り済み（Azure OpenAI/Bedrock BAA・frontier値下げ・SLM動向）

①「規制＝API不可」は2026年現在ほぼ崩壊致命

Azure OpenAI＋BAA / AWS Bedrock＋BAA / ZDRゲートウェイで、医療HIPAAの大半・Azure/AWS上の金融は普通に業務データをAPIに入れられる。「閉域化したい」程度のニーズはマネージドクラウドの設定作業で剥がれ、蒸留基盤を買う理由にならない。

②「顧客インフラ推論＝自社原価ゼロ」は導入障壁を顧客に転嫁重傷〜致命

SLM蒸留がsingle GPUに載る2026では、GPU運用できる顧客は自前で内製しあなたを雇わない。運用できない顧客はそもそも閉域推論を回せず導入が重い。刺さるのは「内製能力ゼロ × エアギャップ義務あり」の極狭帯だけ。

③ solo個人が規制業種に$40-150k一括受託を売り切るのは信頼/調達の壁で詰む致命

防衛・金融・医療の閉域案件はSOC2・ベンダー審査・賠償責任・事業継続性（bus factor=1への拒否）を要求。自走70%は皮肉にも「残り30%が止まったら詰む」リスクを顧客に意識させる。

→ ブラッシュアップ後のポジショニング

顧客定義から「なんとなくオンプレ志向」を全捨て。堀を①レイテンシ＝物理（契約でも値下げでも消せない、最強）＋②真のエアギャップ法令義務の2点だけに集約。「自社原価ゼロ」の自慢を撤回し、継続運用（ドリフト監視・再学習・監査証跡維持）のサブスク$3-8k/月を主役に＝マネージド・オンプレMLOps運用代行。GTMはSIer/クラウドパートナーへのホワイトラベル下請けで信頼・賠償を元請けに転嫁。一括$40-150kは封印し PoC $10-20k（固定タスク1本）→運用サブスクの階段に。自走基盤はIaC/ランブックとして納品物化しbus factorを潰す。

TAM：「規制業種全体」の錯覚TAMから「物理レイテンシ or 真エアギャップ × 内製困難 × 安定タスク」の交差点へ。日本で現実的に数十〜低三桁社。狭いがBAA論にもfrontier値下げにも侵食されない岩盤。

一行で：「規制下の蒸留屋」ではなく「クラウドが物理的に届かない場所（超低レイテンシ・真エアギャップ）専門の、マネージド・オンプレMLOps運用代行」。

1〜5万円

初期費用

4週

初収益まで

85〜95%

粗利率

月200〜1,000万

運用積み上げ後

運用自走度70%

人間の役割：新規顧客のドメイン/成功指標の初期設計とeval gold setの最終検収（＝堀そのものなのであなたが握る）、規制要件すり合わせ、モデル昇格の最終承認。定常運用（再蒸留・eval・デプロイ・監視・レポート）は完全自走。

📋 事業の中身

顧客を「frontier APIを使いたくても使えない」層に限定：医療（PHI/HIPAA）・金融（監査ログ・データ持ち出し禁止）・製造/防衛（オフライン/オンプレ）・低レイテンシ必須（50-200ms SLA）。彼らにとって本家APIは値下げされても選択肢にすらならない。「顧客の閉域内で正規保有データを使って蒸留した特化小型モデルを、推論・eval・ドリフト監視・自動再学習・自動ロールバックまで運用する」ことが価値。推論は顧客インフラで動かすため自社推論原価ゼロ＝逆ザヤが構造的に発生しない。

🏰 技術的堀（あなたにしか作れない理由）

堀は「蒸留できること」でも「手法（LoRA/QLoRA）」でもなく、(1)規制データを閉域内で扱う前処理＋PII保証＋監査証跡パイプライン、(2)顧客閉域に自走MLOps（ドリフト検知→自動再蒸留→A/B→自動ロールバック）をデプロイ・遠隔運用する統合エンジニアリング、(3)OOD劣化を防ぐ分布マッチングとドメインeval設計の暗黙知。ノーコード勢はPyTorch学習ループもオンプレMLOpsも書けず原理的に到達不能。

🆚 7死因をどう無効化したか

②本家内包→managed蒸留は顧客データを本家クラウドに置く前提でデータ主権顧客に使えない＝真の空白に位置取り。③利益率→成果課金を撤回し固定リテーナー一本化、推論を顧客インフラへ。⑤制裁射程→学習源は顧客の正規保有一次データのみ。⑥需要の幻想→HIPAA/EU AI Actが需要を底上げする実需。

💰 料金・ユニットエコノミクス

(1)初期構築受託 $40k-150k/件（閉域内MLOps構築＋初回蒸留＋eval整備、明日の現金）。(2)運用サブスク $3k-15k/月（推論原価は顧客持ちで高粗利）。(3)精度SLA達成ボーナス。運用リテーナーの自社COGSはeval/監視computeのみ（月数千円）で粗利85-90%。CACは規制業種の長期営業（6-12ヶ月）が重く、初期は受託人脈/紹介でlighthouse 1-2社を確保。

🤖 10セッション運用体制

S1=データ整形/PII除去 / S2=teacher合成データ生成 / S3=QLoRA再蒸留オーケストレータ（GPUスポット管理） / S4=eval採点（ドメインgrader） / S5=昇格判定/デプロイ/ロールバック / S6=ドリフト監視→自動再蒸留 / S7=監査レポート生成 / S8=顧客閉域デプロイ/遠隔監視 / S9=回帰テスト/CI / S10=営業資料・PoC実証ケース生成

🗺️ ロードマップ

Week 1-2

自分/公開データで「本家API使用不可の制約下で同精度・50ms・データ閉域」の実証ケースを1本。Unsloth/Axolotl/lm-evalで蒸留パイプライン骨格を10並列構築。

Week 3-6

規制業種のlighthouse顧客1社を受託人脈/HQ紹介で確保し初期構築受託（$40-80k）クローズ。閉域内MLOpsを顧客インフラにデプロイ。

Month 2-4

運用サブスク移行（ドリフト再蒸留・監視・監査レポートの自走化完成）。eval gold set構築を数時間に圧縮。2社目を別ドメインで獲得。

Month 5-12

ドメイン別蒸留レシピ＋eval資産をライブラリ化。3-5社の運用サブスク積み上げ。監査実績を信頼資本に。月100-400万円帯。

⚠️ 主要リスクと対策

CAC（規制業種の意思決定6-12ヶ月）が最大の律速

対策：HQ紹介/既存受託人脈でlighthouse 1-2社を先に確保。閉域デプロイ＋監査証跡という技術的信頼を武器に実証ケースをinbound化。少数高単価に集中。

eval gold set構築が顧客ごと人力で自走度を下げる

対策：自走度を正直に70%開示。半自動化テンプレで1顧客数時間に圧縮。残る人力は「あなたの暗黙知＝堀」なので参入障壁を兼ねる構造に転化。

規制データ取扱いの法的責任（HIPAA/EU AI Act）

対策：推論・学習を顧客閉域に閉じデータ持ち出しゼロのアーキ。PII除去＋監査証跡を中核機能に。法務レビューを契約条件化。

🙋 あなたがやること

規制類似データでの閉域内蒸留＋低レイテンシ実証ケースを1本作る（自分/公開データで可）
HQ（52.192.81.229）に規制業種の受託紹介ルートがないか確認、lighthouse候補をリスト化
Unsloth/Axolotl/lm-evalで蒸留→eval→ドリフト監視の自走パイプライン骨格を10並列で構築開始

picks&shovels / ドメイン特化eval合成＋蒸留judge（AI開発者向け self-serve基盤）

EvalForge — 開発者が自分のドメイン特化evalを作れる「自走eval合成＋蒸留judge」基盤

あなた自身が土地勘を持つAI/開発者向けタスク（RAG事実性・コード生成・agent軌跡・tool-calling）のドメイン特化evalを合成生成し、蒸留した小型judgeで本番トラフィックを低コスト全量採点。本家汎用judgeがドメインで負ける箇所を独占可視化。

なぜ2位か

規制eval案の致命傷（医師/弁護士の専門家ラベルが必須でオーナー非保有）を、ターゲットを「あなた自身がドメイン知を持つAI/開発者向けeval領域」に振ることで根治。蒸留judge（実在実証技術）というあなたのスキル直結のコアだけを残し、専門家ラベル依存を消すことで自走度と堀が両立。

🔨 ストレステスト → ブラッシュアップ

WebSearch裏取り済み（Galileo Luna-2・Promptfoo→OpenAI買収・DeepEval Synthesizer・judgeバイアス研究）

①「judgeを誰がevalするのか」問題＝ラベル不要が隠れたコールドスタート致命

蒸留judgeが本番を全量採点した数字を顧客はなぜ信じるのか。2026研究でフロンティアjudgeすら難ベンチで50%超エラー・self-preference bias実証、93%のチームがLLM-judge実装で苦戦。「あなたのドメイン知が正しい」担保は主観で、専門家ラベルの代替にならない。

② 蒸留judgeは既にコモディティ（Luna-2/Lynx OSS/HHEM）重傷

「コスト97%減/レイテンシ91%減」はGalileo Luna-2の公称値そのもの。Patronus Lynxはオープンソース、Vectara HHEMも無料。「全リクエストに小型検出器＋サンプリングでLLM-judge」が2026の業界デフォルト構成。蒸留judge＝堀はもう成立しない。

③ eval合成もOSS無料化＋顧客＝AI開発者は最も内製/OSSで逃げる層重傷

DeepEval Synthesizerでeval合成はOSS無料化、「実トラフィックから作る内製benchmark」が2026の出荷コンセンサス。OpenAIがPromptfoo（Fortune500の25%が利用）を$86Mで買収しFrontierに統合。AI開発者向けdevtoolはCAC高・LTV読めず、Phoenix/Langfuse/Braintrustの無料枠が床を破壊。

→ ブラッシュアップ後のポジショニング

「蒸留judge＝堀」「eval合成＝堀」「ラベル不要」を全捨て。堀をベンダー中立な第三者性（OpenAI/Anthropic/Braintrustが構造的に持てない利益相反フリー）＋特定規制ドメインの失敗辞書（taxonomy）の深さに移す。judgeモデルはLynx/Luna/任意SLMの差し替え可能部品、資産はrubricとデータ。顧客を「AI開発者一般」から金融・法務・医療・保険でagent/RAGを本番投入したが採点根拠を監査・規制・経営に説明する義務がある非AI専業の事業会社へ。devtoolでなく「規制対応eval監査サービス」。課金は薄利self-serveを捨てドメイン監査受託$15-50k（コンサル＋失敗辞書納品）を主軸、従量採点は後付け。機械検証で客観正解が出る領域（コード生成・tool-calling・構造化抽出）に全振りし、各採点に機械検証との一致率を添える＝「監査に耐えるjudge」。

現実：自走75%は楽観。最初の3-5社は手作業ベッタリの受託（実質自走30-40%）で失敗辞書を蓄積し、1規制ドメイン（例：金融RAGの事実性監査）に殺すほど絞るのが生存条件。初収益はsubscriptionでなく受託1本$15-50k。

一行で：「開発者向けevalツール」ではなく「規制下でAIを本番運用する事業会社向けの、ベンダー中立な第三者 eval監査サービス」。

ほぼ0円

初期費用

4週

初収益まで

99%

採点粗利（裏取り済）

月100〜500万

サブスク積み上げ

運用自走度75%（3案中最高）

人間の役割：新規ドメイン選定、合成evalの正解方針の初期設計（あなた自身がドメイン知を持つので専門家不要）、昇格judgeの最終レビュー。コード実行系に厳格スコープすることで人力calibrationを最小化。

📋 事業の中身

戦場を規制業種（医師/弁護士が要る）から、あなたが最も土地勘を持つAI/開発者向けタスク（RAGの事実性・hallucination検出、コード生成の正しさ、agent軌跡評価、tool-calling検証、構造化抽出）に振る。これらは(a)正解が合成＋あなたのドメイン知＋10並列で生成でき専門家ラベル不要、(b)コード実行系は機械検証が原理的に客観（unit test合格・状態ハッシュ・数値一致）で人力地獄を回避、(c)顧客＝AI開発者であなたのIT/SW業界ドメインに合致。製品は「顧客のドメインで本番トラフィック100%を低コスト全量採点する蒸留small judge＋eval合成パイプライン」。

🏰 技術的堀

(1)蒸留small judge（Luna-2型＝コスト97%減・レイテンシ91%減）を特定ドメインで本家汎用judgeを偽陽性率で上回らせる蒸留know-how、(2)eval合成＋本番トラフィックからのエッジケース蓄積→judge再学習の自己増殖ループ（コード実行系は正解が機械検証で客観なのでループが人力に縛られず閉じる）、(3)「どのケースでjudgeが誤るか」のドメイン別失敗辞書。ノーコード勢はPyTorch judge蒸留もeval合成も書けず複製不能。

🆚 7死因をどう無効化したか

①コモディティ化→手法でなくドメイン特化eval合成資産＋失敗辞書に堀。②本家内包→汎用evalは本家（Promptfoo買収）が降りるが、顧客ドメイン特化eval＋顧客本番トラフィックは本家が触れない。③利益率→judge推論サブスク$250+/月＋従量、採点はcheap computeで粗利99%。⑥需要の幻想→開発者の不信（46%＞信頼33%）＋モデル増加で判定需要増の実需。

💰 料金・ユニットエコノミクス

(1)ドメイン特化eval合成＋蒸留judge構築受託 $15k-50k/件。(2)自動採点サブスク >$250/月（seat＋$0.03/test case従量）。蒸留small judgeの採点原価は$0.0003に対し$0.03課金＝粗利約99%（裏取り済）。CI回帰evalとして毎コミット走る使われ方でスティッキネス。<$50帯（GRR23%で壊滅）は絶対に避ける。

🤖 10セッション運用体制

S1=eval合成（Self-Instruct/Evol-Instruct） / S2=機械検証grader実装（unit test/状態ハッシュ） / S3=蒸留judge学習トリガ / S4=採点ワーカー / S5=偽陽性トリアージ / S6=judge再学習/ドリフト監視 / S7=回帰テスト/CI / S8=顧客レポート生成 / S9=採点SaaSのAPI/インフラ運用 / S10=ベンチマーク公開/技術ブログによる権威づけ＆inbound生成

🗺️ ロードマップ

Week 1-2

土地勘のある1ドメイン（RAG事実性 or コード生成）で蒸留judge＋eval合成MVPを10並列構築。汎用GPT-judge比の偽陽性率改善ベンチを1本出し、技術ブログ＋公開ベンチでinbound権威づけ。

Week 3-6

AI開発者コミュニティ（Discord/OSS）経由でdesign partner 2-3社獲得。各社ドメインでjudge特化＆採点サブスクのβ。コード実行系を優先しcalibration人力を最小化。

Month 2-4

採点サブスクをCI統合（毎コミットで回帰eval）しスティッキネスを作る。eval合成テンプレ＋失敗辞書を横展開資産化。受託は呼び水に限定しサブスク主軸へ。

Month 5-12

ドメイン別judge＋eval資産ライブラリを厚くし、10-20社のサブスク積み上げ。月100-400万円帯へ。

⚠️ 主要リスクと対策

蒸留judge既製品（Luna-2/Lynx/HHEM）とのコモディティ競合

対策：汎用judgeでなく「顧客ドメインに合成＋FTで特化」する点に堀を絞る。失敗辞書＋eval合成テンプレという複製困難資産に重心。

顧客が自前でevalを作る（2026は内製推奨がコンセンサス）

対策：「1週間で作れること」は売らない。継続的なjudge再学習・ドリフト対応・CI統合という運用負担肩代わりに価値を絞りサブスク粘着で固める。

本番judge推論のGPU固定費がスケール時に粗利を食う

対策：採点をバッチ集約しGPU稼働率を上げる。従量課金で原価パススルー。小型judge（440M-3B）で推論原価を最小化。

🙋 あなたがやること

最も土地勘を持つeval領域（RAG事実性/コード生成/agent軌跡）を1つ選び、蒸留judgeのMVPを作る
汎用GPT-judge比の偽陽性率改善ベンチを1本出し、技術ブログ＋公開ベンチでinbound権威づけ
AI開発者コミュニティ（OSS/Discord）でdesign partner候補をリストアップ

picks&shovels / RL環境・verifier（コード実行系の客観検証領域）/ bounty即着手→ニッチ受託

VerifierKit — コード実行系「機械検証が客観な狭領域」に厳格特化したRL環境＆verifier量産

人手専門家ラベルが不要で機械検証が原理的に客観な領域（コード実行＝unit test合格、computer-use＝状態ハッシュ、数学＝数値一致）だけに厳格スコープ。Prime Intellect bountyで今週から実弾収益、評判を関係性資本に複利変換する短期現金エンジン。

なぜ3位か（最速現金）

RL環境案が全滅した死因（手続き生成は単一ステップ専用＝長期ホライズンは人力地獄、専門家ラベル非保有、SMB需要薄）を、「機械検証が原理的に客観で人力ラベル不要なコード実行系」に厳格限定することで根治。あなたのIT/SWドメイン土地勘＋GRPO/報酬設計が直接効く。ポートフォリオの「2週間で実弾」の最速現金源。

🔨 ストレステスト → ブラッシュアップ

WebSearch裏取り済み（Prime Intellect bounty相場・Mercor $10B/Surge $25B・Anthropic RL環境$1B投資）

①「2週間で実弾」は看板倒れ＝bountyは小銭の共有プールで時給割れ致命

実勢額はOpen Access $100-500、Application-Only $1,000-5,000+（審査制、2ヶ月で500+応募・80+レビューの狭き門）。1本仕上げに実働1-2週溶け、Mercorの専門家平均時給$95を下回る。「採択保証のないコンペに無償で工数を賭ける」構造。

② コード実行RL環境はMercor($10B)/Surge($25B)/MechanizeがAnthropicと協業済みで寡占致命

買い手の財布は既にMercor（ARR$1.5B・専門家3万人）とSurge（売上$1.2B）が握る。「機械検証で客観」＝大手が真っ先に人海で自動化・量産する領域＝参入障壁が低い側に自ら飛び込んでいる。

③ 堀とした「報酬ハック検出」は胴元PIがブログ公開済みで公知化重傷

Prime Intellect自身が検出手法（variance tracking・spillover分析）を公開、ICLR 2026論文も攻撃パターンを体系化。「既知ハック辞書」は公知の寄せ集めに近づき、参入時点で陳腐化のカウントダウン。

④ Anthropicが$1Bでcoding環境を内製化中＝中期で外部需要が縮小重傷

「機械検証可能な狭領域」は最も自動生成しやすく、環境を作るエージェント自体が環境を量産する未来に最初に飲まれる。

→ ブラッシュアップ後のポジショニング

「bounty＝収益源」「コード実行に厳格特化」「既知ハック辞書＝堀」「3-5年事業」を全捨て。bounty＝ポートフォリオ製作費（マーケコスト）と再定義し、KPIをbounty額でなく「Hub上のDL/fork数→受託リード数」に。主戦場を「環境を作る」から「環境の信頼性を保証・監査する（env reliability auditor）」へ。大手が人海で薄く作る環境の報酬ハック・verifier gamingが壊れている箇所を第三者QAとして突く。堀を辞書（知識）から累積した検証ログ（資産）＝「報酬ハック耐性検証済み」バッジへ。胴元PIは評判の踏み台と割り切り収益はPI外の直接契約で取る（マルチホーム化）。

現実：「2週間で実弾」は誇大。正しくは「2週間で評判の一歩、現金は4ヶ月目以降」。短期現金源としては過大評価で、純粋な現金源より「評判・ログ資産・市場知の前線基地」＋12-18ヶ月の収穫窓と再定義すべき。最速で現金化したいなら、環境をゼロから作るより既存/他社環境への「報酬ハック監査」単発サービス$2-5k/件を初手に置く方が初収益が早い。

一行で：RL環境の「作り手」ではなく「環境の信頼性を保証する第三者監査人」。現金エンジンでなくポートフォリオの評判・学習の前線基地。

0〜3万円

初期費用

2週

初収益（最速）

80〜90%

粗利率

月50〜200万

受託+サブスク化後

運用自走度70%

人間の役割：新領域の報酬設計初期方針（報酬ハッキングを誘発しない判断）、bounty/受託の戦略選定と関係性構築、環境の最終品質サインオフ。機械検証可能領域に絞ることで人力判断を最小化。

📋 事業の中身

「手続き生成が効くのはsingle-turnパズルだけ、長期ホライズンは人力」という検証指摘を逆手に取り、機械検証が原理的に客観な狭領域＝コード実行（unit test pass/fail）・computer-use（状態ハッシュ照合）・数学（数値一致）・構造化抽出（スキーマ検証）だけに厳格限定。入口はPrime Intellect Environments Hub/verifiersへのbounty貢献で2週間以内に実弾収益＋評判構築。frontier lab直販（関係性ゲートでsolo不可）は狙わず、bounty実績→評判→特定ニッチ（コードエージェント学習企業）への直接受託に複利変換。

🏰 技術的堀

(1)機械検証が客観な領域での「報酬ハッキング検出の実行結果ベース自動監査」＋既知ハックパターン辞書、(2)コード実行環境のサンドボックス＋並列rollout基盤の運用know-how、(3)bounty/OSS貢献で築く評判をニッチ受託の関係性に変換する社会資本。ノーコード勢はGRPO/報酬設計もサンドボックス基盤も書けず複製不能。

🆚 7死因をどう無効化したか

②本家内包→本家は環境の買い手で競合でない（最も内包されにくい）。③利益率→bountyは小銭だが再利用可能な環境ファクトリにストック化、低価格セルフサーブをやらない。⑥需要の幻想（本案最大の注意点）→bounty即収益で需要を早期実証。⑦技術無効化→報酬設計はモデル進化で需要増。

💰 料金・ユニットエコノミクス

(1)Prime Intellect bounty＝今週から$100-5,000+/件（検証最速・評判構築）。(2)コード実行系環境＋verifier受託 $10-40k/件。(3)反復領域（コードエージェント評価）の環境スイートをサブスク化。verifier採点はGPU軽負荷で原価数千円、$100-5k課金で粗利80%+。機械検証領域に絞ることでverifier実装をClaude Codeで量産でき労働効率が高い。

🤖 10セッション運用体制

S1=コード実行環境scaffold生成 / S2=verifier（unit test/状態ハッシュ）実装＋自動テスト / S3=難易度カリキュラム生成 / S4=サンドボックスrollout実行＆採点 / S5=報酬ハッキング自動監査 / S6=grader drift検知 / S7=bounty要件マッチング＆提出パッケージ生成 / S8=回帰スイート / S9=サンドボックス/並列rolloutインフラ / S10=OSS貢献/技術権威づけによる評判構築

🗺️ ロードマップ

Week 1-2

Prime Intellect verifiers/Environments Hubのbounty（コード実行系・機械検証可能なもの）に10並列で着手し2週間以内に実弾収益。OSS貢献を可視化し評判構築開始。

Week 3-8

bounty複数件を連続獲得し評判を積む。コード実行系の報酬ハッキングパターン辞書＋再利用環境テンプレを資産化。提出merge率を実測しKPI化。

Month 2-4

bounty評判を武器にコードエージェント学習企業1-2社へ環境＋verifier受託（$10-40k）を直接提案。機械検証可能領域に厳格スコープし品質事故を回避。

Month 5-12

反復領域の環境スイートをサブスク化。bounty＋受託＋サブスクの複合で月数十万〜100万円帯を安定化。Case1/2の資金供給源として機能。

⚠️ 主要リスクと対策

bountyは小銭で共有プール、競争で逓減。事業として小さい

対策：bountyは「現金＋評判構築の入口」と割り切り、本命をニッチ受託＋サブスクに置く。短期現金エンジンとしてポートフォリオに位置付け、単独で大きくする前提を置かない。

Prime Intellect単一胴元依存（方針変更で入口枯渇）

対策：bounty評判を早期にニッチ受託（コードエージェント企業直接）へ変換し胴元依存を脱却。複数lab・自社サブスクに販路分散。

機械検証可能領域に絞ると市場が狭い

対策：狭さは品質事故回避と人力地獄回避とのトレードオフで意図的に受容。コード実行系はあなたの土地勘が最も効きAI開発の中核でもあり需要は構造的に存在。Case2とverifier技術を共有し相乗。

🙋 あなたがやること

Prime Intellect verifiers/Environments Hubのコード実行系bountyを今週リストアップし10並列で着手
コード実行系の報酬ハッキングパターン辞書＋再利用環境テンプレの資産化を開始
OSS貢献を可視化し技術権威づけ（GitHub/技術ブログ）で評判構築を開始

03ポートフォリオの統一テーゼ

3案の統一テーゼは「本家LLMの価格戦争・機能内包・資本占有から構造的に隔離された3つのニッチに、あなたの最深武器（蒸留＋データエンジニアリング＋オンプレMLOps自走）を集中投下する」こと。検証で全候補を殺した共通死因は「コスト裁定で勝負する限り、本家の値下げ・managed内包・GPU資本に必ず負ける」だった。3案はこれを正面から放棄し、本家が原理的に降りられない3領域に位置取る——(1)規制/データ主権/低レイテンシ（本家クラウドに顧客データを置けない）、(2)あなた自身がドメイン知を持つeval（専門家ラベル不要で自走と堀が両立）、(3)機械検証が客観なコード実行系RL環境（人力地獄回避・本家は買い手）。

補完性は時間軸とリスクで設計：③VerifierKit（2週間で実弾）→②EvalForge（数週間で受託・中期サブスク）→①OnPrem Distillery（中長期データ堀＋完全自走運用の本命）。③の即金が①②のCAC（規制/開発者営業）を食い繋ぎ、技術スタック（蒸留・eval・verifier・自走パイプライン）を3案で共有するため10並列＋t3.large 1台で並行運用できる。律速は一貫してCAC（技術でなく販路）であり、③の即金とHQ紹介ルートで初速を作ることが成否の鍵。

04却下した案（15候補→3案の選別）

15候補は実質2テーゼ（蒸留＝rank1-5、RL環境＝rank6-8）に集約され、全案が辛口検証で弱点を露呈。各死因を設計で根治した生存核だけを3案に統合した。

純粋なコスト裁定型蒸留サービス（rank1-5原案）：価値命題を「本家API比1/20コスト」に置く全案を却下。frontier価格が12ヶ月で約80%下落し成果課金の削減分母が構造的に蒸発、OpenAI/Bedrockがmanaged蒸留を内包済み。Case1に「規制/データ主権でコストから切り離す」救済核のみ統合。

成果課金（削減額の15-25%シェア）主軸の全設計：帰属検証問題＋frontier値下げで分母が自己破壊的に縮小。固定リテーナー＋運用サブスクに全面置換。

self-host推論で粗利を握るテーゼ：検証の算数で破綻（損益分岐約11B tok/月に対しICPは50-200M tok/月で1/50-1/220、GPUアイドルで逆ザヤ）。Case1で推論を顧客インフラに移し自社推論原価ゼロ化で根治。

規制ドメインのゴールド標準eval（rank4原案）：医療$50-100/hr・法務$349-900/hrの有資格専門家ラベルが必須でオーナー非保有。Case2でターゲットをオーナードメイン（AI/開発者向けeval）に振り専門家依存を消去して救済。

frontier lab直販＋長期ホライズン汎用RL環境ファクトリ（rank6-8原案）：需要がlab集中で関係性ゲートによりsolo不可、手続き生成は単一ステップ専用で長期ホライズン層は人力地獄。Case3で「機械検証が客観な狭領域＋bounty現金化」に厳格スコープして救済核のみ抽出。

05次のアクション

ストレステスト後の正直な結論

3案とも痛いところを突かれ、生き残る形が当初より狭く・GTM主導になりました。「完全自走・高粗利でほっといても回る」案は無く、いずれも技術は堀の通行証、勝敗は販路（GTM）で決まる事業に収束しました。ブラッシュアップ後の各案の正味評価：

① OnPrem Distillery → 最も岩盤が堅い（レイテンシ＝物理）が、TAMは数十〜低三桁社に縮小しGTMが重い。ホワイトラベル下請けで信頼壁を回避できるかが鍵。
② EvalForge → 蒸留judge/eval合成の堀は剥がれ、「規制下の第三者eval監査サービス」という受託主体の事業に。1規制ドメインに絞れば成立、ただし自走は当初75%でなく初期30-40%。
③ VerifierKit → 「2週間で実弾の現金源」は誇大と判明。現金源でなく「評判・ログ資産・市場知の前線基地」に格下げ。初手は「作る」でなく「監査する」。

あなたの判断をお願いします

どれを主軸にするか。岩盤の堅さなら①（ただしGTMが重い）、受託で堅実に現金化なら②を1ドメインに絞って。③は単独主軸でなく①②の評判・学習の補助に回すのが妥当。
GTM（販路）が全案の律速と判明しました。①のホワイトラベル下請け先（SIer/クラウドパートナー）や②の規制業種リードについて、HQ（52.192.81.229）に紹介ルートがあるか確認しますか？
主軸が決まれば、10セッションに役割を割り振り、Week 1-2タスク（①なら低レイテンシ実証ケース＋ホワイトラベル提案、②なら1ドメインの失敗辞書＆監査レポートMVP）から並列着手します。

v3 — あなたのAIエンジニア技術を「堀」にした完全自走3案

🧠 v3の核心テーゼ — 技術的深さで「自走 vs 堀」のジレンマを解く

純粋自走（v1の10案）

v3：技術的深さが堀 × 自走70-75%

あなたの武器（ヒアリング結果）= そのまま堀

ML/モデル開発

データエンジ

フルスタック+インフラ

収益化実績

013案のポートフォリオ構造

③ VerifierKit

② EvalForge

① OnPrem Distillery

02厳選プラン詳細

OnPrem Distillery — 規制下・閉域専用の特化モデル蒸留＆自走運用基盤

🔨 ストレステスト → ブラッシュアップ

→ ブラッシュアップ後のポジショニング

📋 事業の中身

🏰 技術的堀（あなたにしか作れない理由）

🆚 7死因をどう無効化したか

💰 料金・ユニットエコノミクス

🤖 10セッション運用体制

🗺️ ロードマップ

⚠️ 主要リスクと対策

🙋 あなたがやること

EvalForge — 開発者が自分のドメイン特化evalを作れる「自走eval合成＋蒸留judge」基盤

🔨 ストレステスト → ブラッシュアップ

→ ブラッシュアップ後のポジショニング

📋 事業の中身

🏰 技術的堀

🆚 7死因をどう無効化したか

💰 料金・ユニットエコノミクス

🤖 10セッション運用体制

🗺️ ロードマップ

⚠️ 主要リスクと対策

🙋 あなたがやること

VerifierKit — コード実行系「機械検証が客観な狭領域」に厳格特化したRL環境＆verifier量産

🔨 ストレステスト → ブラッシュアップ

→ ブラッシュアップ後のポジショニング

📋 事業の中身

🏰 技術的堀

🆚 7死因をどう無効化したか

💰 料金・ユニットエコノミクス

🤖 10セッション運用体制

🗺️ ロードマップ

⚠️ 主要リスクと対策

🙋 あなたがやること

03ポートフォリオの統一テーゼ

04却下した案（15候補→3案の選別）

05次のアクション

ストレステスト後の正直な結論

あなたの判断をお願いします

v3 — あなたのAIエンジニア技術を
「堀」にした完全自走3案