Deep Research 徹底比較!最強の探索を調査!

AIKIDO LIVE

ディープリサーチ徹底比較——ChatGPT・Gemini・Grok・Perplexityを3人で試した結果

2025年2月23日

この記事の3行まとめ

  • ChatGPT・Gemini・Grok・Perplexity・Phindなど主要AI各社のディープリサーチ機能を実際に同一テーマで比較し、性能差を検証した。Claudeはまだ未搭載(まもなく追加予定)、DeepSeekは厳密なディープリサーチとは異なる仕組みだった。
  • ChatGPT(o1 Pro)のディープリサーチが引用の明示・情報量・構成の質でトップクラス。Grokのディープサーチは「X特化」で汎用リサーチには弱く、インド古典芸術をテーマにすると「スカスカ」の結果に終わった。
  • 各社のスクリーンショットをO1でまとめて分析させる「比較分析メタ手法」が特に実用的で、FireShotプラグインで縦長画像を撮影してO1に一括分析させるだけで横断比較レポートが生成できる。

今日のゲスト——関さんとジニさんが語るディープリサーチ最前線

今回はスペシャル回として、AIをマニアックに研究する関さんと、新潟県でパソコン教室を経営しながらAI講師としても活動するジニこと北平孝幸さんをお迎えした。「ディープリサーチ徹底比較」というテーマで、実際にツールを動かしながら語り合う内容だ。

関さんは島根県の津和野町からワーケーション中という状況での参加。「回線が繋がるか不安だったので昨日はお休みしたが、ちゃんと繋がったので戻ってきた」という。ChatGPT・Gemini・Grok・Perplexity・Phind・Jensparkを「全部使ってる」という強者で、Grokとの出会いを「衝撃的だった。なるほどって思った」と表現する。

ジニさんはこの会が始まる30分前までディープリサーチの各社比較をリサーチしていたほどの本気派だ。元々はGrokの話をしようとしていたところにChatGPT Operatorが登場したため、急遽テーマが変わったという経緯もある。

ディープリサーチとディープサーチ——何が違うのか

まず用語の整理から。「ディープリサーチ(Deep Research)」と「ディープサーチ(Deep Search)」は似て非なるものだ。関さんの説明によると、「Grokは遠慮して『サーチ』と言った」という説もある。実態として、ディープリサーチはウェブ上の多数のドキュメントを自動的に解析し、引用付きの詳細レポートを出力する機能だ。単なる検索(サーチ)とは根本的に異なる。

2025年2月時点でディープリサーチを搭載しているサービスは、ChatGPT・Gemini・Grok(ディープサーチとして)・Perplexity・Phind・Jensparkなど。Claudeはまだ未搭載(まもなく追加予定)。DeepSeekは推論と検索を同時に押せるボタンがあるが、実際に試してみたところ「厳密なディープリサーチではなかった」と関さんは確認している。

Grokのディープサーチがなぜ「サーチ」という名前なのか——関さんは「X以外の情報に弱いから、リサーチとまでは言えないんじゃないかという感じがする」と語る。X上の情報については強いが、それ以外の分野では「ChatGPT 3.5みたいな感じになる」という表現が的を射ていた。

同一テーマで各社を比較——インド古典芸術で試した理由

比較のテーマに選んだのは「インド古典芸術」だ。関さんが意図的に選んだマニアックなテーマで、「絶対誰も調べてないし、知識もない」というのがポイント。一般知識が豊富なAIと情報源に依存するAIの差が、こういうニッチなテーマで如実に出る。

結果として、ChatGPT(o1 Pro)は約2分でレポートを出力し、引用元・情報ソースが明示されていた。ただし関さんの観察では「o1 ProよりもO3 mini搭載のディープリサーチの方が深く考えている印象がある」という。実際にO3 miniで出したレポートと比べるとo1 Proの方が情報ソースが薄い面もあった。

Grokのディープサーチはインド古典芸術については情報が薄く「スカスカ」で、X以外の情報源が弱いことが露わになった。コメント欄では「インド古典舞踏のオリッシーって知ってる?」と詳しい視聴者からの補足コメントが入るほど、AIの知識の偏りが鮮明になった比較だった。

料理で例えると、「何でもある食材で作れる総合調理師」と「特定の食材だけが超得意なスペシャリスト」の違いだ。汎用リサーチにはChatGPTの総合力が光り、X上の話題はGrokが圧倒的に強い。テーマと目的に合わせて使い分けることが重要だ。

「スクショをO1に分析させる」メタ比較手法が実用的すぎる

今回最も参考になったのは関さんが実践していた「各社のディープリサーチ結果のスクリーンショットをまとめてO1に分析させる」という手法だ。FireShot(縦長スクリーンショットが撮れるブラウザプラグイン)を使って各社の出力を画像化し、それを一気にO1に渡して「各サービスのディープリサーチの性能・能力への所感をください」と投げる。

今回使ったのはGrok3・Perplexity・Phind・ChatGPT(4o・o1・o1 Pro・O3 mini High)の各結果。「O1 Proはこれだけの入力ファイルを扱えないので、O1で分析させた」という点も実用上の注意点だ。

出てきたレポートには「全体的な印象として、ディープリサーチと称する機能によってWebや各種ドキュメントを自動的に解析し、引用付きの詳細レポートを出力するという点は共通。情報源の広さ、再申請性、レポートの構造化、引用の明示の違いが各社で見られる」という分析が出てきた。さらにChatGPTのモデル別(O1・O1 Pro・O3 mini High)の違いも細かく説明された。

自分の時間を使わずに比較分析のアウトプットが手に入る。これは今すぐ使える実用的な手法だ。5軒のレストランのランチを自分で全部食べて比較するのではなく、写真を並べてグルメ評論家(O1)に評価させる——そういうイメージだ。

各社ディープリサーチの使い分け——現時点の結論

今回の実験から導き出した使い分けの基準はこうだ。深い調査・引用付きの信頼性の高いレポートが必要なら ChatGPT(o1またはo3 mini搭載のディープリサーチ)が最も安定している。Xのリアルタイムトレンド・SNSの声を拾うならGrokのディープサーチが強い。「みんながXに投稿しているわけだから、感情分析だけはものすごく得意」という関さんの評価が的確だ。マーケティング目的でSNSの声を拾う用途には最適だ。

Googleとの連携を活かしたリサーチはGeminiが得意だ。Perplexityはソース引用の手軽さで評価されているが、深さでは有料のChatGPTに劣る場面も。Jensparkはディープリサーチ機能を持ちながら使いやすいUIで、コスト意識があるならチェックする価値あり。Claudeは近日中にディープリサーチが追加予定で、その段階で改めて比較したい。

関さんはGrokについて「謎の機能がいっぱいある、遊びが入っていて面白い」と語る。自分の投稿をみく女子風に書き換えるような機能もあり、エンタメとして楽しめる側面もある。リサーチ用途だけでなく、感情分析やSNS分析としての可能性も持つ独特なツールだ。

ChatGPT Operatorの登場——ディープリサーチの次の世界

今回の対談では、ディープリサーチの次の段階として「エージェント機能」の話題にも触れた。ChatGPT Operator(オペレーター)が日本のProユーザーにも解放されたタイミングで、「AIがパソコンを操作して代わりに作業してくれる」時代が目前に来ている。

ジニさんはOperatorを「新入り秘書を旗から見ている感じ。親の気分になる」と表現した。Googleカレンダーを連携させて予定の中から探してくれて、Zoomの設定をして、そのままメールを送ってくれるまで勝手にやってくれる。さらにUberEatsとも連携していて「ここでアポを取ったあとピザを用意しておいて」という指示まで実現できる。

アメリカでVPNを使って試していた頃は「リアリティがなかった」が、日本でProユーザーとして使い始めた瞬間に「めちゃくちゃ自分事になった」と言う。日本語で、自分の文脈で使えるようになったことの違いは大きい。ディープリサーチが「AIが代わりに調べる」機能なら、Operatorは「AIが代わりに動く」機能だ。この2つが組み合わさったとき、何が起きるか——それが次の焦点だ。

ディープリサーチの精度を上げるコツ——テーマ選びと質問設計

ディープリサーチを使いこなすには、テーマ選びと質問設計が肝心だ。関さんがインド古典芸術をテーマに選んだように、ニッチなテーマほどAI間の差が出やすい。一般的な知識が豊富なAIは独自の理解で補完し、情報源に依存するAIはそのまま薄い結果を出す。

質問の仕方も重要だ。ただ「○○について調べて」と投げるより、「引用元を必ず明示して」「情報源の信頼性も評価して」「日本語で構造化されたレポートを出して」という制約を加えるだけで、出力の質が大きく変わる。AIへの指示は料理のレシピと同じで、材料(テーマ)だけでなく調理方法(制約条件)まで指定することが美味しいアウトプットを引き出す鍵だ。

各社のディープリサーチを試す際は、同一テーマ・同一質問文で比較することが原則だ。条件を揃えないと、どのAIが良いのかではなく「どのプロンプトが良かったのか」を比べることになってしまう。

ディープリサーチが変える情報収集の習慣

ディープリサーチの登場で、情報収集の習慣は根本から変わりつつある。これまでは「検索→読む→まとめる」という3段階を人間が全部やっていた。ディープリサーチはこのプロセスを「目的を入力→2〜5分待つ→引用付きレポートを受け取る」に変える。

ビジネスで言えば、市場調査・競合調査・論文調査・法規制調査など、従来なら専門家に依頼するか数時間かけて自分でやっていた作業が、自分でできるようになる。ただし、出てきた情報を鵜呑みにせず「どのソースから引用しているか」を確認する習慣は欠かせない。ディープリサーチはあくまで「最初の地図」であり、重要な判断の前には一次情報の確認が必要だ。

今後はどのAIに何を調べさせるかを判断する力が、情報収集の質を決める。料理人がどの包丁を使うか選ぶように、AIの特性を理解した上で使い分けることが情報プロとしての基本スキルになっていく。

よくある質問

Q. ディープリサーチを無料で試すことはできますか?
Perplexityは一部無料で試せる。ChatGPTのディープリサーチはPlusプラン以上が必要だ。Jensparkも一部無料で試せる機能がある。まずPerplexityかJensparkから入るのがコスト的にはハードルが低い。Grokのディープサーチも無料プランで試せる部分がある。

Q. ディープリサーチとChatGPTの通常検索は何が違うのですか?
通常の検索は「一度ウェブを検索して結果を返す」だが、ディープリサーチは「複数のウェブページを自動的に巡回・分析し、引用付きの詳細レポートを数分かけて作成する」。調査にかかる時間は通常2〜5分程度だが、出力の深さと信頼性が格段に高い。引用元が明示されるため、情報の裏取りもしやすい。

Q. GrokのディープサーチとChatGPTのディープリサーチ、どちらが正確ですか?
汎用的な調査ではChatGPTのディープリサーチが現時点では信頼性が高い。GrokのディープサーチはX上のリアルタイム情報・感情分析には強いが、それ以外の分野では情報が薄くなりがちだ。マーケティング目的のSNS分析はGrok、論文や専門情報の調査はChatGPTという使い分けが実用的だ。

Q. 複数のAIのディープリサーチを効率よく比較する方法はありますか?
今回紹介した「スクリーンショット比較法」が実用的だ。FireShotなどで各社の出力を縦長スクリーンショットで保存し、まとめてO1やGeminiなどの高性能モデルに渡して比較分析させる。自分の読む時間を節約しながら客観的な比較ができる。比較する際は同一テーマ・同一質問文で試すことが条件を揃える上で重要だ。

Q. ChatGPT Operatorとディープリサーチの違いは何ですか?
ディープリサーチは「AIが代わりに調べる」機能で、インプットしたテーマについて自動でウェブを巡回し引用付きレポートを作る。OperatorはAIが実際にパソコンを操作して作業を代行する機能で、カレンダー設定・メール送信・注文など「動く」作業ができる。2つを組み合わせることで、調べて・判断して・実行するという一連の流れが自動化できる。

Q. o1 ProとO3 mini搭載のディープリサーチ、どちらが優れていますか?
関さんの観察では「O3 mini搭載の方が深く考えている印象がある」とのこと。o1 Proは高速に出力できる一方、同じテーマで比べるとO3 miniの方が情報ソースが豊富な場合があった。用途と速さのバランスで使い分けるのが現時点のベストアンサーだ。


🎯 AI氣道で一緒に学ぼう

上部へスクロール