最強AI「Claude Fable 5」が消えても仕事が回り続けたのは、最強に仕組みを作らせていたからだ

最強AI「Claude Fable 5」が消えても仕事が回り続けたのは、最強に仕組みを作らせていたからだ

家事と子育てのスキマで経営する3方よしAI共創コンサルタントの田中啓之、ひろくん(@passion_tanaka)です。

今回は、ちょっと事件みたいな話をします。「いちばん賢い」と言われた最新AIモデルを、私は3日間ぶっ通しで使い倒しました。正直、寝るのも惜しいくらい夢中で、エアロバイクを漕ぎながらでも「次は何をやらせよう」と考えていたほどです。そして4日目の朝、そのAIは私の手元から、忽然と消えました。

性能の不調でも、私が料金を払わなかったからでもありません。アメリカ政府の一声で、です。

この3日間、私はそのAIに、自分でも引くくらいの量の仕事をさせました。だからこそ「最強って、ほんとに全部に必要だったの?」が、きれいごと抜きの実感としてハッキリ見えた。今日はその、生々しい数字つきの答えをシェアします。

3行でわかるポイント

  1. 最強AIが本当に効いたのは「長くて複雑で一気通貫の仕事」だけ。3日でやった約25テーマのうち、たった6つ(2割)でした
  2. 残り8割は”普通のAI”で充分。2,100枚超の画像仕分けも、安いAIを10体並べてコストほぼゼロで完了
  3. 最強でも「味見」を省くと堂々と間違える。「11件の見落とし」という報告のうち、10件が誤判定でした

AIの最新活用を学べる無料コミュニティ

GPTs研究会に参加する(無料・7,300名突破!)→ 参加はこちら

記事全体の流れ:最強AIが登場→3日フル稼働→突然消えた→でも仕組みで回り続けた

最強AIが、たった3日で消えた

2026年6月9日、ある最新AIモデルが登場しました。「これまでのどのAIより、長く複雑な仕事をひとりでやり切れる」とうたわれた、最上位クラスのモデルです。コードのベンチマークでは、それまでのトップモデルを11ポイントも引き離す最高スコアを叩き出していました。

私はすぐ飛びついて、3日間フル稼働させました。実を言うと、その少し前まで、別のAIがツール操作でエラーを連発して仕事が止まり、頭を抱えていたんです。だから余計に、ぐいぐい進む最強AIが楽しくてしょうがなかった。「こんな大きい仕事を、一気に丸ごと任せられるんだ」という高揚感がありました。

ところが6月12日(日本時間の翌朝)、開発元のAnthropicは、アメリカ政府の輸出管理に関する指令を受けて、このモデルへのアクセスを停止しました。理由は性能不良でも、私の使い方が悪かったわけでもありません。国の安全保障という、私には1ミリもどうにもできない理由でした。開発元自身が「この措置は私たちの透明性の原則に反する」と異議を表明しながら、それでも止めざるを得なかった。指令のおよそ4時間後、私の画面から最強AIは静かに消え、ひとつ前の世代のモデルに自動で切り替わっていました。

参考報道:CNBC9to5Mac

でも——翌日、私の仕事はいつも通り、満タンで回っていました。切り替わった別のAIで、何ひとつ止まらなかったんです。あれだけ依存していたのに、なぜ? ここに今日のいちばん大事な学びが詰まっています。

実際に3日間、何をやらせたのか(具体的に書きます)

「使い倒した」と言っても抽象的なので、実際にやらせた仕事を具体的に並べます。3日間で、ざっと数えて25テーマ。1日8本以上のペースでした。

📌 3日間でこのAIにやらせた仕事(一部)

  • 2,080行あった自分用のAI指示書を、14体のAIエージェントに一斉点検させ、538行まで研ぎ澄ます
  • システム全体を43体のAIで8つの角度から同時監査→78個の改善点を1本の計画書に統合
  • 動いているアプリの中身約4,092行のプログラムを読み解き、長年原因不明だったバグの根本を特定
  • 約1,291行のWebアプリをほぼ一発で実装し、検索速度を8.8秒→約1秒へ(9倍速)
  • 2,116枚の画像を仕分け/100本以上の自動処理を総点検して18本を整理
  • 数百GBに膨れ上がっていたデータのゴミを片付け(913GB→661MB)

つまり「重い頭脳労働」から「ひたすら単純な作業」まで、ぜんぶ最強AIにごちゃ混ぜで突っ込んだわけです。だからこそ、どの仕事に最強が本当に効いて、どの仕事には完全にオーバースペックだったかが、くっきり分かれました。

①最強が本当に効いたのは「長くて複雑な仕事」だけだった

最強AIは長く複雑な一気通貫の仕事に強い(フルコースを一人で仕切る料理長)

最強AIが「これは格が違う」とハッキリ実感できたのは、6つの仕事でした。共通点は全部「長くて・複雑で・一気通貫が要る」こと。

たとえば、43体のAIを8方向に走らせた結果(バラバラの調査報告)を、矛盾なく1本の計画書にまとめ上げる。あるいは4,000行を超えるアプリのコードを、最後まで集中力を切らさず読み解いてバグの正体を断定する。こういう「並のAIなら途中で迷子になる規模」を、最後まで破綻させずにやり切ったんです。

🍳 料理で言うと

何日もかかるフルコースを、仕込みから盛り付けまで一人で仕切れる料理長。途中で味がブレない、段取りが崩れない。これは確かに、見習いAIにはマネしづらい腕でした。

面白いのが、このAI、賢いだけじゃなく”手堅かった”こと。ツールの操作ミス(コマンドの取りこぼし)の発生率を実際に数えたら、ひとつ前の世代のモデルの約12分の1でした。大きい仕事を任せても、手元が震えない。だから安心して長丁場を預けられたんです。

ただし正直に言えば、「ひとつ前のAIでは絶対できなかった」とまでは言い切れません。並走させて比べたわけではないので。「一発で、崩れず、最後まで通った」という確かな手応え——それがこのカテゴリの実感です。

②でも、8割は”普通のAI”で充分だった

司令塔は最強AI、実作業は安い見習いAI部隊が担うチーム編成

ここが、いちばん意外で、いちばん大事な発見でした。3日間の25テーマを振り返ると、約8割(17テーマ)は、最強の出番ですらなかったんです。

📌 “普通のAI”で充分まわった仕事

  • 2,116枚の画像の仕分け→ 安いAIを10体並べて、料金ほぼゼロで完走
  • 記事の文章の量産→ 中堅クラスのAIで充分。むしろ速い
  • 大量の文字起こしや単純な変換 → いちばん軽いAIで事足りる

最強AIが実際にやっていたのは、「どの仕事を、どのAIに振るか」を決める”司令塔”の部分だけ。手を動かす実作業は、ずっと安いAIたちが担っていました。

そして、ここが効きます。最強AIが消えた翌日、司令塔だけをひとつ前のAIに差し替えたら、現場(安いAIたち)はそのまま動き続けた。チームで回していたから、エースが1人いなくなっても試合は止まらなかったんです。

逆に怖い数字もあります。もしこの最強AIに全部の仕事を任せ続けたら、API料金に換算して月300万円規模になる試算でした。最強は、賢さも料金も「最強」。全部に使うのは、財布にとっても無謀なんです。

③最強でも「味見」を省くと、自信満々で間違える

最強AIでも味見を省くと自信満々で誤答する(11件中10件が誤判定)

「最強なんだから、もう私がチェックしなくていいよね?」——これが、いちばん危ない落とし穴でした。

3日のうち1回、最強AIに大事な棚卸し作業を任せたら、「11件の見落としがあります」と、それはもう自信たっぷりに報告してきたんです。ところが私が一つひとつ確かめてみると、11件のうち10件が誤判定。しかも、自分が少し前に書いた「完了済み」の記録すら見落としていました。

どんなに賢いAIでも、「合ってる前提」で使うと、堂々と間違える。しかも最強だからこそ、口ぶりが自信満々で、うっかり信じてしまいそうになる。いちばん高い食材を使っても、味見をしなければ料理は焦げる。人間の「味見」=最終確認だけは、最強AIを入れても絶対に手放しちゃいけない——これは身に沁みました。

世界でも何に使われ、そして同じ結論に行き着いていた

私の3日間の実感が「たまたま」じゃないことは、世界の事例を見るとよく分かります。最強AI「Claude Fable 5」が登場した数日で、世界中からこんな報告が上がりました。

決済大手のStripe:5,000万行のプログラムの大改修を、人の手なら2ヶ月超かかる作業をたった1日で完了(Anthropic公式
法律AIのHarvey:法律業務のベンチマークで過去最高スコアを記録(Legal IT Insider
金融の現場:決算報告書や分厚い財務資料を丸ごと読み込み、数字で推論
・開発者たちは8時間ぶっ通しの自律作業や、たった1つの指示でゲームを丸ごと作る使い方を披露

開発者からはこんな声も。「1年前なら100回指示が必要だったアプリを、今は一発で作る」「より少ないやり取りで、より高度な仕事をこなす」。そして——ここがいちばん大事なんですが——世界の共通した結論は、こうでした。

「重くて複雑な仕事には、文句なしにすごい。でも、単純な作業にはオーバーキル(やりすぎ)」

これ、私が3日間使って出した答えと、一字一句ピッタリ同じだったんです(Simon Willison氏の初日レビューほか、技術コミュニティで一致)。世界の最前線も、家事と子育てのスキマで経営する私の現場も、同じ場所に行き着いていた——これは、ちょっと感動的ですらありました。

光だけでなく、影も正直に

すごい方:あるゲームの公式実験では、AIにメモ機能を持たせると性能が約3倍に。上位版モデルはブラウザの未知の脆弱性を271件も発見。著名開発者は「弱点が見つからなかった初めてのAI」と評価しました。

影の方:とにかくコストが高く、「初日だけでAPI換算110ドル使った」という報告も。ベテランほど「常用はしない。難所限定で呼ぶ」と言う。さらに一部の高度な用途で、AIが黙って性能を抑える仕組みが入っていたことが論争になり、開発元が謝罪して可視化に変える騒動もありました。「最強だから全部任せる」ではなく「最強を、どこにどう使うか」が、世界中で問われていたんです。

結局いちばんの肝は「ハーネスエンジニアリング」だった

AIという馬をハーネス(フック・検証・オートラン・振り分け・記憶)で乗りこなす

3日間を振り返って、最強AIに任せていちばん正解だったのは、目先の作業じゃありませんでした。AIを動かす”土台”そのものを整えたことです。そして、この土台には、ちゃんと名前があります。

「ハーネス(harness)」——もとは馬を乗りこなすための手綱・鞍・あぶみのこと。AIの世界では、賢いAIという”馬”を実務で乗りこなすための操縦システムと安全装具を指します。自動ガードレール、自動の味見、自動実行、振り分けルール、記憶の置き場……。AIモデルそのものの賢さより、この”ハーネス”の設計が成果を決める——いま世界では「ハーネスエンジニアリング」という専門分野になりつつあります(専門家がノウハウをまとめ始めているほど)。

開発元のAnthropicも、公式の技術ブログでこう説いています。「AIエージェントは、記憶を持たないシフト勤務の作業員のようなもの。毎回ゼロから始まる。だから、進捗メモ・テストの関門・作業記録といった”足場(ハーネス)”を整えることこそが、賢いモデルを選ぶこと以上に、長い仕事の成否を分ける」Anthropic Engineering)。最強AIを「点」で使うんじゃなく、「線」で働かせ続けるには、ハーネスが要るんです。

私が3日間で、最強の頭脳に整えてもらったハーネスは、具体的にこれです。

🔧 最強AIで一段引き上げた”ハーネス”

  • フック(自動ガードレール):公開前に危ない言葉を自動でブロック、機密ファイルを触ろうとすると物理的に止める、品質基準を満たさないとAIが「完了」と言えない——60以上の安全装置が、AIの暴走と手抜きを未然に防ぐ
  • 検証層(自動の味見):記事なら文字数・画像・リンク切れを自動採点、プログラムならビルドやテストを自動チェック。AIが「できました」と言っても、ハーネスが客観的にPASS/FAILを突きつける
  • 自動実行+見張り番:毎朝のまとめや定期作業など100本以上を人間ゼロで自動運転。今回ムダな18本を止め、5本を修理。さらに「同じエラーを2回出したら自動で止まる」番兵を仕込んで、暴走と課金事故を防いだ
  • 司令塔の設計図(振り分けルール):「この仕事は最強・中堅・軽量のどれに任せるか」が3つの問いで自動で決まる仕組み。これこそ「8割を安いAIに回せた」種明かし
  • 記憶の足場:AIが過去の判断や正解を自分で引き出せる索引。”記憶のないシフト作業員”に、しっかりした引き継ぎノートを持たせるイメージ

ここがいちばん大事なんですが——最強AIは、このハーネスを一段引き上げた、まさにその直後に消えました。でも、整えたハーネスは残った。だから翌日からは、その足場の上で、安いAIたちがスイスイ働けたんです。最強の一番の手柄は、毎日の皿を焼いたことじゃなく、自分が去った後も現場が回る”厨房”を設計してくれたことでした。

🍳 料理で言うと

料理人(AIモデル)は、いつか替えがききます。今回みたいに、突然いなくなることもある。でも、使いやすい厨房・味見のチェック体制・段取りのレシピ(=ハーネス)は、店の財産として残る。最強料理人の本当の価値は、ピカピカの腕前そのものより、去った後も見習いが回せる厨房を整えてくれたことだったんです。

だから私の結論はこうです。最新最強のAIに月額を払い続けるより、ハーネス(操縦・検証・自動化・振り分けの設計)に投資するほうが、モデルが何個入れ替わっても効き続ける。ハーネスエンジニアリングこそ、ひとり社長やスモールチームのAI活用の、本当の肝なんです。

で、結局どうすればいいの?

3日間と「突然の別れ」から、私が出した答えはシンプルです。

①「いちばん賢いAI」を全部に使わない。最強は”難所の指名打者”。ここぞの大仕事にだけ呼ぶ。普段の打席は、安くて速い選手に任せる。これだけで、月300万円規模になりかねないコストも、誤判定の事故も、大きく減ります。

②「使い分けの設計」を先に作っておく。どの仕事をどのAIに振るか——これを決めておけば、1つのAIが消えても、別のAIに差し替えるだけで回り続ける。私が翌日もケロッとしていられたのは、これを先に作っていたからでした。

③「味見(最終確認)」だけは、人間が手放さない。より強いAIを買うより、確認の仕組みを厚くするほうが、ずっと効きます。11件中10件が誤判定だった、あの自信満々の報告を思い出すたびに、そう思います。

最新最強のAIは、これからも次々に出ます。そして今回みたいに、突然消えることもある。だから賭けるのはAIそのものじゃなく、「AIが何個入れ替わっても回る、チームの組み方」。そこが、私たちひとり社長やスモールチームの、本当の腕の見せどころだと思うんです。

錆びないのは道具より任せ方——任せ方と味見を手元に残すひろくん

COLUMN

錆びないのは、ピカピカの道具じゃなく”任せ方”だった

最強の道具が手に入ると、つい「これ一本で全部やろう」と思っちゃう。私もそうでした。3日間、夢中で最強AIに何でも放り込んだ。

でも、それが消えた瞬間にいちばん助かったのは、最強そのものじゃなくて、最強に作らせておいた”チームの段取り”でした。皮肉な話です。エースの一番の功績が、エース不在でも回る布陣を残したことだったなんて。

これって、AIに限らず、私がずっと向き合ってきたテーマと同じなんですよね。「自分ひとりで全部抱える」から「役割を分けて、委ねる」へ。道具が賢くなるほど、人間がやるべきは「自分で手を動かすこと」じゃなくて「誰に何を任せ、最後に味見すること」に変わっていく。

最強が消えても、段取りと味見は私の手元に残った。結局いちばん錆びない資産は、ピカピカの道具じゃなくて、“任せ方”と”確かめ方”なのかもしれません。

👉 「抱える」から「委ねる」へのヒントは分身AI.comもチェックしてみてね!

まとめ

  1. 最強AIが本当に効いたのは25テーマ中6つ(2割)だけ。長く複雑な一気通貫の仕事に限られる
  2. 残り8割は普通のAIで充分。全部最強だと月300万円規模・誤判定リスクも背負う
  3. 最強でも「味見」を省くと、11件中10件を誤判定するほど堂々と間違える
  4. 賭けるのはAIそのものより、「AIが入れ替わっても回るチームの組み方」と「味見」

AIの”使い分け”を実践で学ぶ

GPTs研究会(無料・7,300名突破)→ 参加はこちら

LINE OPEN CHAT

Claude Code・AIエージェント実践会

2000人突破! インストールから自動化まで、仲間と一緒に実践しよう

LINEオープンチャットに参加する(無料)

パスコード: 1111

🤖 AI生成コンテンツについて

この記事はAIツール(Claude Code)を活用して制作しています。構成・文章生成・画像制作にAIを使用し、最終的な内容の確認・編集・公開判断はひろくん(田中啓之)本人が行っています。「分身AIひろくん」(bunshin-ai.com)とは別のコンテンツです。

上部へスクロール