AIの最新モデルスコアを読み解く──8月の総集編とCerebraの異常な速さ
- 8月の最大のAIニュースは画像生成レベルが一段階引き上げられたこと。GPT-4oの8月6日アップデートが品質の基準を変えた。
- Cerebraは「絶対前もって用意してるでしょ」と思うほど異常に速い──体感速度が変わると古いモデルには戻れなくなる。
- Mistral Large 2が品質ランキングに急浮上。API軍と呼ばれる裏側のモデル群が実は表のモデル以上の進化を遂げている。
8月はドラマなし? でも地力が着実に上がった月だった
5月・6月・7月は毎月「ドン」という大きなニュースが来ていた。でも8月は比較的静かだったと関さんは振り返る。ところが1ヶ月分のスコアを並べてみると、着実に各モデルの地力が上がっているのが見えてくる。
「毎日見てると地味に変わってるなぐらいの感じなんですけど、やっぱ1ヶ月経つとそれなりに変化がある」という関さんの言葉が、この観測の本質を突いている。派手なニュースがなくても、AIは止まらずに進化し続けている。毎月スコアを定点観測し続けることの価値は、まさにここにある。
たくちゃんこと村木さんも「8月はあんまり目立ってこれ1個っていうのは思いつかない」と言っていた。ところが実際にスコアを並べると、じわじわとした変化が数字に現れている。料理で言えば、毎日ちょっとずつ味が変わっているスープを、1ヶ月ぶりに飲んだら全然違う味になっていたというイメージだ。
8月の一番大きな出来事として関さんが挙げたのが「画像生成レベルの変化」だ。GPT-4o、Gemini 1.5 Flash、Adobe Fireflyなど複数のモデルが同時期にアップデートし、生成される画像の品質が一段階引き上げられた感覚がある、と言う。この変化は見た目ではっきり分かるレベルで、僕も実際に使って同じ印象を持った。
モデルスコアの読み方──クオリティ・スピード・プライスの3軸
関さんが毎月チェックしているのはモデルのスコア表だ。クオリティ(品質)・スピード(速度)・プライス(価格)の3軸で各モデルを比較している。毎日見ていると気づきにくいが、7月末と8月末を並べてみると変化が見える。
クオリティランキングには8月にClaude 3.5 Sonnetが入り、その後Mistral Large 2が踊り込んできた。Mistralは「Mistral 2が出たことで元のモデルの価格が下がり、コスパ比較でも上位に入ってきた形」だと関さんは説明する。GPT-4oは8月6日のバージョンアップで最高スコアをマーク。スピードでは変わらずGemini 1.5 Flashが1位だ。
「皆さんの頭の中にあるのはChatGPT・Claude・Gemini・Perplexityの4つぐらいだと思いますけど、その裏側でAPI軍と呼ばれるモデル群が着実に力をつけている」という関さんの指摘は重要だ。ユーザーが直接触れるモデルと、APIで使われるモデルでは、進化の速度感が違う場合がある。僕もこれを聞いてから、意識的に裏側のモデルもチェックするようになった。
スコア表はLMSys Chatbot Arenaなどで公開されており、毎月定点観測することで各モデルの相対的な位置づけが分かる。どれが今一番賢いか、速いか、安いかを数字で把握できれば、AIを道具として本当に使いこなせる段階に入ってくる。
Cerebraの異常な速さ──下手なサイトより速い
この日の実演で僕がCerebraを実際に動かしてみた。「朝ご飯何がいいか教えて」と入力した瞬間に回答が出てくる。「絶対前もって用意してるよこれ」と思うほど速い。
「下手なサイトの読み込みより速いですからね」という関さんの言葉が全てを表している。8Bモデルから70Bモデルに切り替えてもまだ速い。8Bは当然速いとして、70Bに切り替えた時にもその速さが保たれているのが異常で、それが「やっぱりCerebraは何かが違う」という印象を与えてくれる。
ちょうどGPT-4からGPT-4oに変わった時の「スローモーションにしか見えない」という感覚と同じだ。GPT-4の時代を知っている人にとって、4oのスピードは衝撃だった。そして今、Cerebraを使うと4oすら遅く感じてしまう。速さはそれ自体が体験価値であり、一度経験すると古いモデルに戻れなくなる。
Cerebras.aiからアクセスできて、無料枠でも試せる。8Bから70Bまで複数のモデルを切り替えて試せるのも面白い。体感速度の話を文章で読んでも伝わりにくい部分があるので、とにかく一度アクセスして試してほしい。あの速さは、本当に言葉では表現しきれない。
Mistral Large 2とAPI軍──表には見えない裏側のモデル群
一般のユーザーがブラウザから使うモデルの裏側に、API専用のモデル群がある。Mistral、Llama、Gemma、Venetia(ベネチア)などがその代表だ。関さんはこれを「API軍」と表現していた。
Mistralはフランス発のモデルで、APIで組み込んで使う形が主な用途だ。コード生成や画像解析に向いており、Mistral Large 2の登場で品質スコアが急上昇した。価格もLarge 2の登場で旧モデルが値下がりし、コスパランキングでも一気に上位に入ってきた。
「Venetia」という名前も出てきた。これはラテン語でベニスのことで、英語読みだとベニスになるが、日本語ではベネチアと読む。Geminiをジェミナイと読むかジェミニと読むかという話と同じで、英語の発音と日本語カタカナの間にはいつもこういうズレがある。その裏側で走っているのがLlama 3で、チャットと画像生成の両方に向いた高性能モデルだ。
Gemma(GMA2)はGoogleのオープンソースモデルで、Google AI Studioで無料で使える。自分のサービスに組み込んでダウンロードして使えるため、開発者コミュニティでのダウンロード数が非常に多い。無料で使えるプロレベルのモデルというのは、開発者にとって大きな武器になる。
Google AI Studio──プロモデルを無料で使える開発者の聖地
関さんが強くすすめているのがGoogle AI Studioだ。aistudio.google.comからアクセスできる開発者向けパネルで、Gemini 1.5 Pro、Gemma 2、1.5 Flash Experimentalなど複数のモデルを切り替えて使える。これが全部無料で使える。
「Geminiを使う時はここで使うと、いろんな種類のものが体験できるし無料で使えるので大きい」と関さんは言う。右側のモデル選択から「1.5 Pro Experiment 0801」や「1.5 Flash Experimental」を選べる。特にプロレベルのGeminiが無料というのは、課金なしで最先端を試せる貴重な機会だ。
関さんは現在、京都課長大学の非常勤講師として、高校生のPythonの水準にまで上がっている情報系授業に対応した実務家教員として活動している。また、ファッション専門学校でDXを教えており、ファッションデザインの学生たちが在学中にECサイトを立ち上げて稼いでいるという話も聞かせてくれた。「SNSについては逆に教えてもらう立場」という関さんの正直さが印象的だった。
製造業のDXセミナーから戻った僕の感想が今でも記憶に残っている。「ガンガン作ってるDX担当者と、全然使ってくれない現場のギャップがある」という話だ。エンジニア寄りの人はゴリゴリ作っているが、職人さんたちへの浸透はまだまだ。Google AI Studioのような無料ツールを起点にして、現場レベルへの入口設計が必要だと感じている。
台風による足止めと、京都での研究者ミーティング
関さんはこの日、台風で新幹線が止まって京都から帰れない状態だった。「京都満喫してます、引きこもってます」と笑いながら参加している。関さんの仲間は無事に韓国・福岡と移動できていたのに、関さんだけ足止め。「飛行機で帰れたんじゃないですか」という僕の指摘に「その手があった!」という場面も。台風で静岡方面が止まっているだけで、大阪から飛行機という手があったのに、盲点だったようだ。
そんな状況でも、日本マーケティング学会のカンファレンス2024(厚生大学で700名参加)でのポスターセッション発表を終えてきた直後というタイミングだった。「ウェブサイトのリアルタイムカスタマイズの可能性」というテーマでの発表は、8月に実証が間に合わなかったが可能性の提示として評価された。
研究者として、実務家として、学生として。関さんのように複数の立場でAIを見ている人の視点は、特定の領域だけから見ている人とは全く違う深さがある。16カ国のメンバーがいる会社でチャットでやり取りしながら働く体制、京都芸術大学デザイン科映像コースで学生として学ぶ経験──そういう複数の目線が、スコアの読み方に奥行きを与えている。
ライブ中にはコメントで「藤岡ナルフィンが手術をして」という話が届き、AIが手術を乗り越えた、みたいな感じのニュースで盛り上がった。本当かどうかよく分からないまま「AIにも手術が必要な時代か」という笑いが起きたのも、このライブらしい雰囲気だった。
Gemini 1.5 Flashの進化──速くて賢くなった最強コンビ
スピードランキングで1位を維持し続けるGemini 1.5 Flashだが、8月にはさらに賢くなった。速いモデルが賢くもなったということは、「速さを取るか賢さを取るか」というトレードオフが解消されつつあるということだ。
関さんが紹介してくれたのが、1.5 Flash Experimentalというバージョン。Google AI Studioで右側のモデル選択から切り替えられる。「このExperimentalって書いてあるやつが一番新しいやつ」という説明通り、8月時点では1.5 Pro Experiment 0801と1.5 Flash Experimentalが最新の実験版として使えた。
「スピードと品質を両立しているモデルが実用上は最も使いやすい」というのは、実際の業務での実感とも合う。どんなに賢くても、返答を待つ時間がストレスになると使い続けにくい。Gemini 1.5 Flashがスピードランキング1位をキープしながら品質も上げてきたのは、実務で使う観点から見て大きな前進だ。
AI進化を「数字で見る」習慣が、使いこなしの差を生む
このライブで最も印象に残ったのは、「数字で定点観測する」という関さんのスタンスだ。AI情報は毎日洪水のように流れてくる。その中で「今月のスコアはこうだった」という客観的な数字を積み上げていくことで、派手なニュースに振り回されずにAIの実際の進化を把握できる。
8月は派手なニュースがなくても、モデルスコアを定点観測すると着実な進化が見えた。Cerebraの異常な速さ、Mistral Large 2の品質ランキング浮上、Google AI Studioの無料開放──全部が「今すぐ使える」レベルの変化だ。感覚ではなく数字で判断できると、次に試すべきモデルの優先順位も自然と見えてくる。
「体感速度が変わると古いモデルに戻れない」という感覚は、AIリテラシーの実践的な指標だと思う。速さ・賢さ・安さの3軸で最適なモデルを選べるようになると、AIをツールとして本当に使いこなせる段階に入ってくる。裏側のAPI軍に目を向けること、無料で使えるプロモデルを試すこと、現場レベルへの浸透を設計すること。AIの最前線は知っている人と知らない人の差を毎月広げている。だからこそ定点観測を続けることに意味がある。
高校生のPythonスキルと、大学での教育格差の現実
関さんが教えている京都課長大学では、「高校生の情報教科書にPythonが載っている」という話が出た。「高校生のレベルでこんなん教えてんの、と思うぐらいパイソン書いてますから」という関さんの驚きは、AI時代の教育の転換点を象徴している。
その高校生たちが大学に上がってきた時、大学側の教員が追いつけない。だから実務家教員への需要が急増している。IT・AIに明るい実務家であれば大学から引く手あまたで、関さんのように複数の大学・専門学校で同時に教えているケースも珍しくなくなってきた。
ファッション専門学校では、「在学中にECサイトを立ち上げて稼いでいる学生がいる」という。アパレル業界への就職は狭き門なのに、AIを使ってD2Cブランドを始める学生が出てきている。教える立場の関さんが「SNSについては逆に教えてもらう」と言えるような、教育と現場の境界が溶けていく感覚は、AI時代の学びの本質に近い気がする。
よくある質問
Cerebraとはどんなモデルですか?無料で使えますか?
Cerebraは異常なほど速い推論速度を持つAIモデルです。8Bから70Bまで複数のサイズがあり、下手なWebサイトより速く回答が返ってきます。Cerebras.aiからアクセスでき、無料枠でも試せます。速度を一度体感すると他のモデルが遅く感じるほどです。70Bに切り替えてもその速さが保たれているのが最大の特徴です。
Mistral Large 2はどんな特徴がありますか?
フランス発のAPI専用モデルで、コード生成・画像解析に強みがあります。Mistral 2の登場で旧モデルの価格が下がり、品質とコスパの両面でランキング上位に入ってきました。ブラウザから直接使うより、APIで自社サービスに組み込む用途に向いています。8月のスコア比較で急浮上した注目モデルです。
Google AI Studioとは何ですか?どこでアクセスできますか?
Googleの最新AIモデルを無料で試せる開発者向けパネルです。aistudio.google.comからアクセスでき、Gemini 1.5 Pro・Flash・Gemma 2などを切り替えて使えます。プロレベルのモデルを無料で試せる貴重な環境で、Experimental(実験版)のモデルが最新版として利用できます。
AIモデルのスコアをどこで確認できますか?
LMSysのChatbot Arenaなどでクオリティ・スピード・プライスの比較スコアが公開されています。月単位で定点観測すると、各モデルの進化の傾向がわかります。特にAPIモデル群(Mistral・Llama・Gemmaなど)は表のモデルと並行して急成長しています。
製造業の現場でAIが普及しにくいのはなぜですか?
DX担当者や経営者は積極的に使っている一方で、職人さんや現場スタッフへの浸透が遅れています。「現場の人たちそれぞれにあったAI」を作っていく必要があり、一律の導入ではうまくいかないことが多いです。Google AI Studioのような無料ツールを入口にして、段階的に広げていく設計が有効です。
GPT-4oの8月6日アップデートは何が変わりましたか?
画像生成の品質が一段階引き上げられたのが主な変化です。Gemini 1.5 Flash・Adobe Fireflyなど他のモデルも同時期にアップデートしており、2024年8月は「画像生成の水準が変わった月」として記憶されています。テキスト生成のスコアも改善し、クオリティランキングで最高スコアを記録しました。
「API軍」とはどんなモデルのことですか?
一般ユーザーがブラウザから使うモデル(ChatGPT・Claude・Gemini等)の裏側で動くAPI専用モデル群のことです。Mistral・Llama・Gemma・Venetiaなどが代表例で、開発者がサービスに組み込んで使います。表のモデルより目立ちませんが、品質・速度・価格のスコアで急速に追い上げてきています。
🎯 AI氣道で一緒に学ぼう
- 📺 YouTubeチャンネル登録で毎日のLIVEを見逃さない
- 💬 GPTs研究会(Facebookグループ)で6,000人以上の仲間と交流
- 🌐 AI氣道公式サイトで最新情報をチェック
この記事はGPT研究会モーニングライブ(YouTube動画 LlIZ0MA7QI4)の字幕をもとに作成しました。





