ElevenLabsで音声AIエージェントを作って遊んだ日のこと

video thumbnail for 'スペシャルゲストはAI!?最新AIを遊びながら試す!GPTs研究会 LIVE|11月10日'

ひろくん@passion_tanaka)です。

11月10日の月曜日、ただっちと2人で朝LIVEをやった。テーマは「最新AIを遊びながら試す」というもので、何かを決めて成果を出しにいくというよりは、面白そうなものを触りながらコメントをもらって、わいわい楽しんで30分にしようとただっちと話していた。その日にただっちが「今日ちょっと実験したい」と言って紹介してくれたのが、ElevenLabsを使った音声AIエージェントだった。クリエイティブプラットフォームとエージェントプラットフォームという2系統があって、後者を使うと音声で自然に会話するAIが作れる。エージェントを電話番号に紐付ければ100人に同時電話もできる。GeminiのRAGとつなぐとカルピスの原液を学んだ分身AIが動き回れる。そこまで話が広がって、30分があっという間に終わった。

ElevenLabsにはクリエイティブとエージェント、2つのプラットフォームがある

音声AIエージェントを作って遊んだ日の一部始終を、観た順番のまま残しておく。

ElevenLabsにはクリエイティブとエージェント、2つのプラットフォームがあ(5:48・LIVEキャプチャ)

この日の朝LIVEでただっちが「今日ちょっと実験したいな」と言って取り上げたのが、ElevenLabs(11ラボ)の音声AIエージェント機能だった。ElevenLabsは音声生成のプラットフォームとして知られていて、テキストから人間に近い音声を作れる。日本語にも対応していて、声質や感情表現も細かく設定できる。それに加えて、AIエージェントを作って動かせる機能もある。テキストを音声に変換するだけじゃなくて、AIが自律的に会話を続けるエージェントが作れる。

ただっちがLIVEでElevenLabsを開いた時の入り口が、この発言だった。

ただっち(5:48〜)

「11ラボって音声を作成するツールがあるんですけど、あれでAIのエージェントを作って音声対応ができるので、それをライブのゲストにしようとなっています」

ひろくん(2:17〜)

「ありがとうございます。ぜひ皆さん朝のコメントもいただけたら」

ただっち

「今ちょっと少しパンが焼けてしまったので1分ほどお待ちください」

ライブのゲストをAIにしてしまおう、という発想が出発点だった。音声で会話できるエージェントをその場で作って、ライブに出演させてみる。ただっちと私の2人のライブに、AIが3人目として加わるイメージで進めていた。

ElevenLabsにはクリエイティブとエージェント、2つのプラットフォームがあ(6:09・LIVEキャプチャ)

実際にElevenLabsを開いてみると、画面上部に大きく2つのカテゴリが並んでいる。

ただっち(6:09〜)

「ちょっと今11Lab立ち上げて、11Labってクリエイティブプラットフォームとエージェントプラットフォームって2つあるんですけど、エージェントプラットフォームって押すとこのエージェントが作れるんですね。マインドフルネスコーチとかセールスエージェントとかあるんですけど、このエージェント作成って押すと自分で作れる」

画面はクリエイティブ系とエージェント系の領域に分かれていて、今回触っていくのはエージェント側だ。エージェント側はAIが自分で会話を進める仕組みを作る領域で、LIVEでは電話応答やヒアリングの形で実演された。この日ただっちがメインで触ったのはエージェントプラットフォームの方だ。エージェント作成のボタンを押すと、テンプレートとして「マインドフルネスコーチ」「セールスエージェント」といった雛形がすでに用意されている。それをそのまま使うこともできるし、ゼロからカスタムで作ることもできる。テンプレートが用意されているので、最初の一歩が踏み出しやすい。エージェントの作り方自体はシンプルで、使用する声とキャラクター設定(プロンプト)を入力するだけで動くものができる。ここまで裾野が広がってきているんだなというのを、この日LIVEで目の当たりにした。

音声生成で知られてきたElevenLabsで、エージェント機能も使える。作って・動かして・修正するというサイクルを非常に短い時間で回せる設計になっていて、この日の朝LIVEで実際に触りながら見せてくれたのも、まず遊んでみるのがただっちたちの流儀だからだ。

▶ この話題を動画で見る(5:48〜)

日本語の声を選んでキャラクター設定を試した

日本語の声を選んでキャラクター設定を試した(6:33・LIVEキャプチャ)

エージェントプラットフォームで設定を進めていると、最初に気づいたのが管理画面が日本語になっていることだった。以前は英語オンリーだったのが、日本語対応されている。これは小さいようで大きな変化で、英語に不慣れな方でもかなり直感的に操作できるようになっている。

ただっち(6:33〜)

「最近日本語にも対応したらしくて管理画面も日本語になってるので、めちゃくちゃ伝えやすいかなと思います。今ちょっとデモ的に簡単に作っちゃいますけど、日本語を話す人で、おはようございます、ライブ出演できて嬉しいですって、まあこれ今ライブ出演させようとしてます、AIに」

この声選びの時間が、見ていて一番わくわくしたところでした。

管理画面の日本語化によって、設定項目の意味を調べながら手探りで進める必要がなくなっている。AIエージェントのキャラクター設定は、どんな性格でどんな役割を担うのかを日本語で書くだけだ。この日のLIVEでは「日本語を話す人で、おはようございますと挨拶して、ライブ出演できて嬉しいですと言う」というようなプロンプトを設定した。

次に取り組んだのが声の選択だった。ただっちが「この声が選べます、世界中の声があってElevenLabsの特徴で、すごく高精度の声で感情的な声も出せます」と紹介しながら、日本語フィルターでキャラクターを絞り込んでいった。若い声や中年の声など複数のキャラクターが並ぶ中、実際に試聴しながら候補を選ぶという流れだった。ひろくんとただっちで「かわいい女の子の声にしよう」という方向になり、いくつか試した末に声が決まった。声を選ぶだけでエージェントの印象ががらっと変わるのが面白いところだ。

ただっち(7:18〜)

「本当はもっと緻密に設定してもいいんですけど、一旦これでやってみましょうかね。これだけで日本語喋るエージェントができました。でワークフローという機能を使うとここでまたいろんな機能をつなげられる」

LIVEの現場で適当に作ったエージェントが、ちゃんと日本語で返答してくれたのは正直驚いた。細かく作り込めばもっと精度は上がるわけだけど、まず動くものを最短で作ってみるというのがAIを触る時の良い入り方だと思う。ワークフロー機能を使うと、エージェントとの会話を起点にした処理の自動化も設計できるという。

ただっち(10:07〜)

「これテストってやると、これでエージェントの電話ができます」

テストボタンを押すだけで、その場でエージェントと会話を試せる。実際にテストしてみると、テンション高めに「おはようございます!」と返ってきて笑ってしまった。このテスト機能があることで、設定を変えながら何度も試せる。LIVEでその様子を見てもらいながら「こういう感じで声の分身が作れるんだよ」という流れで話を進めていた。

管理画面が日本語になり、テンプレートが整い、テスト機能まで揃っていて、観ながら「これなら今すぐ触れるな」と感じた。

▶ この話題を動画で見る(6:33〜)

電話というアナログの入り口から誰でもAIと対話できる

電話というアナログの入り口から誰でもAIと対話できる(14:22・LIVEキャプチャ)

エージェントを作ってみた後、話が大きく展開した。それが「電話」という入り口についての話だ。ただっちが「アウトバウンド電話をかけるという機能がある」という話をしていた。電話番号をつないでAIエージェントが実際に電話をかけにいくという仕組みの話だ。これを聞いた時、私は「電話か、それは面白い」とすぐに思った。理由はシンプルで、電話というのはスマホもパソコンも関係なく、誰でも使えるインターフェースだから。

ただっち(14:22〜)

「電話はできるじゃないですか。大体みんな誰でも。だからお年寄りの人とかでもAIとまさにこの対話を通じて、例えばおじいちゃんおばあちゃんになんかSNS発信をしてもらおうと、孫役の声で電話をして。孫と電話をしてる感覚で、柿を使ってサラダを作ると意外と美味しいんだよとかって話してると、終わったら、それをブログ記事にしてレシピを載せてとかって」

この例が私はすごく好きだった。おばあちゃんが孫と話すような感覚で電話をして、その会話が自動でブログ記事になる。AIを意識せずにコンテンツが生まれていく。SNSの発信とかブログとか、デジタルツールが苦手な人にとって「電話」という入り口は本当に自然で、ハードルがない。デジタル化が進めば進むほど、アナログな電話がかえって重要になる場面があると感じた。

電話というアナログの入り口から誰でもAIと対話できる(16:05・LIVEキャプチャ)

ただっちもこの話の流れに乗ってきた。

ただっち(16:05〜)

「設計しておいてあげればね、ゴールと質問さえ用意しておいてあげて、対話しておいてくれればできちゃうっていうのはいいね」

この発言が核をついていると思った。ゴールと質問を設計するのは人間の仕事で、あとはAIが対話を通じて情報を引き出してくれる。ヒアリングの設計を一度やっておけば、あとはAIが回してくれる。この考え方は、終盤の「いかにAIに問いを出させるか」という話とも通じている。

ひろくんは「料理しながらとか、子育てをしながらとか、手足が動けないけど耳と口は空いている時間が多い」と話していた。その隙間を使ってAIと対話し、思いついたことを話しておけば、後でワークフローが処理してくれる。手が塞がっていても使える入り口として、電話AIはこれから急速に広まっていく気がした。

電話というなじみの手段でAIにアクセスできる、というのがこの仕組みの面白いところだと感じた。スマホの操作を覚えなくても、アプリをダウンロードしなくても、ただ電話をかけるだけでAIとやり取りできる。この入り口の低さは、観ていて素直にわくわくした。電話番号ひとつでここまでできるのか、というのが正直な感想だ。難しい設定の前に、まず電話してみるところから始まるのがいい。この敷居の低さは実演ならではの説得力があった。

ひろくんは「電話さえできればあらゆるコンテンツが制作できる」と話していた。電話を入り口に、裏方でAIエージェントチームが動いて、ブログ記事や動画、画像などあらゆるコンテンツが生成できる。「いつも言ってるリープフロック」という言葉を使いながら、アナログな電話というなじみ深い手段のままでデジタルの豊かさへ一気に飛び移れる——そこがこのAIエージェント電話の可能性だと強調していた。電話がデジタルへの橋渡しになる、という発想は観ていて腑に落ちた。

▶ この話題を動画で見る(14:22〜)

100人に同時電話して、使うほど本体AIが進化する

100人に同時電話して、使うほど本体AIが進化する(17:39・LIVEキャプチャ)

話が進んで、アウトバウンド電話の話になった。ただっちが「こういう感じで電話番号を追加して、ここに例えば100人とかお客さんに入れると、100人に分身が同時に電話をできる」という話をしながら画面で実演していた。

ただっち(17:39〜)

「こういう感じで電話番号を追加してコンサルタントサポートのAIに電話をかけるってやると、ここに例えば100人とかお客さんに入れるじゃないですか。そしたら100人に僕の分身が同時に電話をできる。今日どうですかとかって僕の声でコンサルティングサポートをして、結果を全部データで文字起こしされたものが来る」

100人に同時に私の声でコンサルの電話がかかっていく。その会話の結果がデータとして手元に届く。これを聞いた瞬間、スケールの感覚が根本から変わる気がした。私が一人で100人のお客さんを同時にサポートするのは物理的に不可能だけど、AIの分身なら同時にできる。この規模感の話を、デモの延長線上で具体的に想像できたのが大きかった。しかも通話内容は文字起こしされて送られてくるので、お客さんの課題の傾向まで見えてくる。聞きっぱなしにならず、あとから読み返せるのもありがたい。記録が自動で残る安心感は、運用する側には大きい。このデータを使ってサービスを改善していける。

さらにここで出てきたのが「多重影分身の術」という話だった。

ただっち(20:45〜)

「使えば使うほど、自分の分身のAIなので、多重影分身の術なんで。トレーニングさせたらどんどん強くなってくるので、お悩み相談をどんどんしてもらうほど解決能力が全員に共有される」

ただっちが「個別のAI 100体が個別にバージョンアップするんじゃなくて、全部本体のAIがバージョンアップする」と話していた。使えば使うほど分身が強くなって、その学習成果はみんなに共有される。お悩み相談をしてもらうほど解決能力が全員に共有されるという仕組みだ。忍者の多重影分身の術のイメージそのままで、分かりやすくて面白い。使い続けることに意味がある仕組みになっているというのは、コンサルやコーチングの立場からもすごく重要な視点だと思った。

また、この電話AIを活用したアイデアとして、店舗のSNS更新代行の話も出た。例えばラーメン屋さんなら、そのお店のメニューや営業時間を学習したAIが電話でインタビューをかけてきて、「今日の日替わりなんですか?」と聞く。店主が「今日はこれとこれとこれだよ」と答えると、それが自動でSNSの投稿になる。電話という入り口を通じてコンテンツが生まれていく仕組みで、デジタルが苦手なお店にこそ合っているなと感じた。

ラーメン屋が日替わりメニューをSNSに投稿していく、という例で話は進んだ。それが電話1本で済むようになるなら、発信のハードルは大きく下がる。観ていて、これは現場の人ほど刺さるアイデアだと思った。

▶ この話題を動画で見る(17:39〜)

GeminiのRAGとカルピスの原液、独自ナレッジをAIに学ばせる

GeminiのRAGとカルピスの原液、独自ナレッジをAIに学ばせる(24:50・LIVEキャプチャ)

LIVE後半、話がさらに深くなった。ElevenLabsのエージェントと組み合わせる上で重要な技術として出てきたのが、GeminiのAPIに搭載されたRAGの機能だ。RAGというのは「検索拡張生成」とも呼ばれる仕組みで、AIに自前のデータを大量に渡しておいて、質問された時に関連する情報を検索して回答に使えるようにする技術だ。

ただっち(24:50〜)

「1個のAI情報的なところを共有しておくと、GeminiのAPIのRAGが作れる機能っていうのがファイルサーチ。まさに自分の情報ナレッジをAIに共有してくる時も、このチャンク分けをこうしてとかこのベクトルのデータベースを作るときに何次元にするとかすんごい設定がマニアックで細かくて難しかったのが、全部Geminiが考えて勝手にいい感じにしてくれる」

以前はRAG(ラグ)を組もうとすると、チャンク分けやベクトルデータベースの次元数といった細かい設定を自分でやる必要があって、かなり難しかった。でも今はGeminiがその辺りを全部考えてくれる。設定の複雑さが消えていっていて、誰でも自前のナレッジをAIに組み込める状態に近づいている。

GeminiのRAGとカルピスの原液、独自ナレッジをAIに学ばせる(25:20・LIVEキャプチャ)

このRAGに突っ込むデータとして話が広がったのが「カルピスの原液」という例えだ。

ただっち(25:20〜)

「自分のまさに出版している著者の方とか講座やっている講師の人とかは、自分独自のナレッジをこのGeminiのAPIに突っ込んでおくと11ラボのにつながるので。例えば自分の分身を作りました時に、自分のあらゆるコンテンツとか価値観とか思いとかを学習済みの分身のAIが作れて、それを電話の窓口にもできるし動画にもできるし実務にもできてくる」

自分のコンテンツ・価値観・思いをGeminiのRAGに学ばせて、それをElevenLabsのエージェントとつなげる。そうすると、電話口でも、動画の出演でも、日常業務でも、その人の考え方を体現したAIが動き回れるようになる。著者や講師の方は特に、自分のナレッジを「原液」として溜めておく価値がある。その原液が濃いほど、つないだAIの品質が高くなる。

ただっち(25:55〜)

「いかにこのカルピスの原液をやっぱり溜めておくかっていうのがますます大事」

原液を溜めておくことが、ますます大事になっていく。AIのツールが良くなれば良くなるほど、中に入れる原液の質と量が問われるようになる。原液さえ持っていれば、新しいAIツールが出るたびにどんどん活用できる。逆に原液がなければ、ツールの進化をうまく使えないまま終わってしまう。この日のLIVEで出てきた流れの中で、私がいちばん響いたのはこの話だった。

原液を持っている人にとって、AIは最高の増幅装置として機能する。今のうちに自分の言葉・経験・価値観をどれだけ形にして残しておけるかが、これからの時代の準備になる。ElevenLabsとGeminiのRAGの組み合わせは、その原液を実際に活かすための具体的な経路として、この日の話で初めてクリアに見えてきた。

▶ この話題を動画で見る(24:50〜)

本物が輝く時代と、自分の軸の話

本物が輝く時代と、自分の軸の話(26:28・LIVEキャプチャ)

LIVEの終盤、ひろくんとただっちの話はだんだん深いところへ向かっていった。AIがどんどん簡単に使えるようになることで、社会全体のパラダイムシフトが起きるという話だ。

ただっち(26:28〜)

「より簡単に、考えなくても勝手にやってくれるっていうのが来てるので、そこでパラダイムシフトが一気に。ますます強い人がより強くなってくる。本物がより輝いてくる。だからハリボテの人はどんどん剥がれてきちゃうっていうのはあるので」

ツールが民主化されて、誰でも同じものを使えるようになる。だからこそ、そのツールを使って何を出せるかという中身の差が際立つようになる。ハリボテというのは、ツールの力を借りて表面だけ取り繕っている状態で、そういう人はAIが進化するほど剥がれやすくなる。一方で、本物の経験や思いや価値観を持っている人は、AIを使えば使うほど輝きが増す。ElevenLabsのエージェントもGeminiのRAGも、この「本物の中身」を持っている人ほど効果的に使える仕組みになっている。

ただっちもこの流れで大事なことを言った。

ひろくん(27:23〜)

「AIが何でもできちゃうからこそ、本当自分が何をやりたいのか、自分が何をワクワクするのかっていうところが、ぶれちゃう人がね、本当にAIに驚かされちゃうんで」

AIが使えることが前提になる時代では、「何のためにAIを使うのか」という目的意識が問われる。目的がはっきりしている人ほど、AIを精度高く使いこなせる。逆に「とりあえずAIを使ってみよう」という姿勢だけでは、ツールに振り回されて終わる可能性がある。ただっちの言う「自分が何をやりたいのか」という問いが、AIを使う前の最初のステップとして機能する。AIに軸ごと飲み込まれていく人と、AIを使いこなす人の差がくっきり見えた瞬間だった。

ただっち(27:07〜)

「AIといかに対話するかっていうのは、いかにAIに問いを出させて、自分からのこの内側の声を出させるかって、本音を出せるかっていうのはね、大事になってくる」

内側の声を引き出すためにAIを使う、という発想は、私が分身AIに取り組んできた理由とも重なっている。AIは質問してくれるし、回答を整理してくれるし、言語化を助けてくれる。でもそこから何を得るかは、問いかける人間の深さにかかっている。AIに問いを出させて、内側の声を引き出す。ここが肝だと改めて感じた。どれだけ高機能なエージェントを作っても、そこに吹き込む「自分らしさ」がなければ、ただの自動応答で終わる。この日、ElevenLabsのエージェントを実際に動かしながら、それをもう一度確かめた気がした。自分の本音や軸をどれだけ深く持てるか。この30分を通じて、そこに何度も立ち返ることになった。技術の話をしていたはずなのに、最後は生き方の話になっている。この流れがこのLIVEらしかった。

▶ この話題を動画で見る(26:28〜)

本物が輝く時代と、自分の軸の話(27:07・LIVEキャプチャ)

ひろくんコラム:声の分身を動かしながら気づいたこと

ひろくんコラム:声の分身を動かしながら気づいたこと(21:00・LIVEキャプチャ)

この日のLIVEで、ElevenLabsのエージェントに既存のボイスを選んで乗せ、応答をテストするところまで触ってみた。

声を選び、キャラクター設定を書き、応答を試す。LIVEのその場でひと通り動くところまで行けた。AIが自分の代わりにしゃべる入り口がこんなに近いのかと、少し不思議な気持ちになった。

声はその人そのものだと思っている。だから声を複製するということは、中身が空っぽのままだと、本当に空虚なものになる。逆に言えば、日々の言葉・考え方・失敗談——そういう「カルピスの原液」がちゃんと蓄積されている人ほど、AIの分身が生きてくる。

私が取り組んでいる分身AI.comも、同じ考えから始まっている。本体の人間がどれだけ深く掘れているかで、分身の質が決まる。ElevenLabsは「声の入れ物」を作る道具として、この分野でますます欠かせない存在になると感じた。

遊ぶことから始める。それが一番の近道だと、今日も確認できた朝でした。まさに、作って遊んだ日でした。

よくある質問

ElevenLabsのエージェントは日本語に対応していますか?
はい。日本語の音声を選んでキャラクター設定ができます。このLIVEでも日本語ボイスのリストを確認しながらキャラクター設定を試しました。
ElevenLabsで100人に同時電話するとはどういうことですか?
ただっちが「電話番号を追加して、ここに例えば100人とかお客さんに入れるじゃないですか。そしたら100人に僕の分身が同時に電話をできる」と話しながら実演していました。AIエージェントを電話番号と紐付けることで、多数の相手に同時に電話をかけることができます。
ElevenLabsのエージェントとGeminiのRAGは連携できますか?
ElevenLabsにはワークフロー機能があり、AIどうしの連携も設計できます。LIVEではGeminiのRAG(ファイルサーチ)の話と合わせて、自前ナレッジ活用の広がりが語られていました。自分独自のナレッジをGeminiのAPIに入れておくとElevenLabsのエージェントとつながる、という話がLIVEで語られていました。
ElevenLabsを試すのに技術的な知識は必要ですか?
ただっちも「驚くほど簡単に試せる」と話していました。複雑な設定を省いて一旦やってみるスタイルで動かすことができます。
ElevenLabsのクリエイティブ系とエージェント系の違いは何ですか?
クリエイティブ系は音声生成を中心とした制作プラットフォームです。エージェント系は対話型AIエージェントを作るプラットフォームで、電話番号を使って誰でも話しかけられるエージェントを構築できます。この2系統が1つのサービスに共存しているのがElevenLabsの特徴です。

🎯 AIと愛で、未来をひらく。「あいあいらぼ。」

起業家・経営者のためのAI実践型コミュニティ。AI実践ワークショップ・AIクリエイティブ会・AI目標達成会が月額5,500円で遊び放題!AIMUNIQ(株)主催。

📱 ただっちのFacebook 🌐 あいあいらぼ。

LINE OPEN CHAT

Claude Code・AIエージェント実践会

2000人突破! インストールから自動化まで、仲間と一緒に実践しよう

LINEオープンチャットに参加する(無料)

パスコード: 1111

🤖 AI生成コンテンツについて

この記事はAIツール(Claude Code)を活用して制作しています。構成・文章生成・画像制作にAIを使用し、最終的な内容の確認・編集・公開判断はひろくん(田中啓之)本人が行っています。「分身AIひろくん」(bunshin-ai.com)とは別のコンテンツです。

上部へスクロール