【2026年】ローカルAIが“声”を持つ日|クラウドに渡さず、自分のPCだけでAIキャラが喋り出す(Rinon Voice Lab × Irodori-TTS)

【2026年】ローカルAIが“声”を持つ日|クラウドに渡さず、自分のPCだけでAIキャラが喋り出す(Rinon Voice Lab × Irodori-TTS)

「AIに喋らせる」と聞くと、どこかのクラウドに音声を投げて、返してもらう絵を浮かべませんか。私もずっとそうでした。でも、その前提が崩れ始めています。自分のPCの中だけで、AIキャラクターが待ち時間ほぼゼロで、感情までのせて喋り出す。それが、個人開発のレベルで現実に動くようになりました。クラウドに何も送らずに、です。

きっかけは一本の記事でした。ASCII.jpの「寝不足になるほど面白い ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた」。著者の新清士さんが作った「Rinon Voice Lab」という仕組みの話です。読んで、思わず夜更かししました。

私はAIコンサルの主夫社長です。毎日、Claude CodeやCodexを”AIチーム”として束ね、コンテンツを回しています。だから断言できます。これは技術好きの遊びでは終わりません。経営者にこそ刺さる話です。今日はその理由を、いいところも、引っかかるところも、まるごとお伝えします。

図解

「外に送らないAI」の、何がそんなに面白いのか

これまでの音声AIは、ほぼクラウド前提でした。マイクで拾った声も、打ち込んだテキストも、いったんネット越しのサーバーへ。処理されて、返ってくる。便利です。本当に便利。でも、よく考えてみてください。その裏であなたの言葉は、一度かならず社外に出ている

料理にたとえると、これは「出汁をとるたびに、よその厨房まで食材を持っていく」状態です。味は安定する。プロが仕上げてくれる。けれど自分の台所には何も残らないし、食材の扱いも相手に任せきり。便利さと引き換えに、主導権を少しずつ手渡しているわけです。

今回のローカルAIは、ここを真逆にします。食材も、鍋も、火も、全部自分の台所に置いたまま。クラウドのAI音声を比べた話は「【2026年最新】AI音声モード徹底比較|ChatGPT・Gemini・Claude・Grok・Perplexity」に書きました。でもあれは「どのクラウドの厨房を使うか」の比較です。今日はもっと手前。「そもそもクラウドに渡すのか、渡さないのか」という話をします。

ここを知っているかどうかで、AIツールの選び方が変わります。性能表だけ見て選んでいた人が、「待てよ、これはうちのデータがどこを通る道具なんだ」と一歩立ち止まれるようになる。その一歩が、けっこう大きいんだよ。

図解

Rinon Voice Labとは何か——手元で完結する3つの部品

Rinon Voice Labは、新清士さんがGitHubで公開している「ローカルで動くキャラクター会話・音声アプリ」です(github.com/sakugetu/rinon-voice-lab・MITライセンス)。README本人の言葉では、こう書かれています。

Local character chat and speech app.(ローカルで動くキャラクター会話・音声アプリ)
— Rinon Voice Lab GitHub README より

仕組みは、ばらすと拍子抜けするくらいシンプルです。料理の三要素みたいなもの。頭脳と、声と、お皿。順番に見ていきます。

  • 頭脳(LLM)= Gemma 4:Googleが公開している言語モデルです。Rinon Voice Labでは「LM Studio」というローカル実行ソフト経由で、gemma-4-12b-itのようなモデルを自分のPCで動かします。これが”何を喋るか”を考える部分。献立を決める、料理人の頭の中ですね。
  • 声(TTS)= Irodori-TTS v3:Aratakoさんが公開している、日本語特化の音声合成モデルです(github.com/Aratako/Irodori-TTS・MITライセンス)。テキストを”声”に変える担当。READMEではこう位置づけられています。

A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control.(絵文字で話し方を操れる、Flow Matching方式の音声合成モデル)
— Irodori-TTS GitHub README より

面白いのは、ここ。入力テキストに添えた絵文字で、感情のニュアンスを指定できるんです。嬉しい顔の絵文字を足せば弾んだ声に、困った顔なら少し沈んだトーンに。文章の意味だけでなく、表情まで指で操れる感覚に近い。さらに、お手本の音声をちょっと聞かせるだけで声色を寄せる「ゼロショット音声クローン」にも対応しています。日本語に最適化されているぶん、あの”機械が読み上げてる感”が薄いのも効いてきます。

  • ガワ(アプリ)= Rinon Voice Lab:頭脳と声、この2つをつないで、キャラクター画像・字幕・会話速度・感情スタイルを画面でいじれるようにした本体です。盛り付けのお皿、と言ってもいい。1人のキャラと話す1Pモードに加えて、2体のキャラを並べて掛け合いさせる2Pモードまであります。AIキャラ2人の漫才を、自分のPCで眺める。そんな絵が普通に成立するわけです。

READMEを読み込むと、地味だけど効く機能がいくつも仕込まれていました。キャラごとのプロフィールや表情差分を差し替えられる。LLMに渡す前に軽いWeb検索メモを足せるオプションがある。そして極めつけが、音声生成だけを2台目のPCに逃がす「2P remote TTS」。頭脳と声を別々のマシンに分けて、負荷を散らす仕組みです。台所が手狭なら、隣の部屋にもうひとつコンロを置く。発想がそれです。

ここまで作り込まれていて、コードはMITライセンスで全公開。誰でも中身を読めて、改造もできる。正直、頭が下がりました。こういう個人開発が日本語圏で出てくること自体が、私にはうれしいニュースです。

この3つが、自分のPCの中で手をつなぐ。すると何が起きるか。ASCII.jpの記事には、こう書かれています。

AIのキャラクターと、待ち時間がほとんどない状態で、ほぼシームレスにやり取りができ、AIの返答は音声で返ってきます。発話ごとに感情表現もされるため、自然な発話になっています。
— ASCII.jp 新清士「ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた」より

そして、この記事でいちばん大事な一文が、これ。

これらがローカルPC上の技術の組み合わせで実現できているということです。
— 同上

クラウドに頼らず、手元だけで。ここが今日の核心です。

図解

なぜ「ローカル完結」が経営者に効くのか

経営者の方とAI導入の話をしていて、いちばん多く出てくる本音は、性能ではありません。スピードでもコストでもない。ほぼ毎回、出てくるのはこれです。

「うちの会社の情報、それ、どこに行くんですか?」
— AI導入相談でいちばん多い、経営者の本音

顧客名簿。見積り。社内のやり取り。まだ世に出していない企画。AIに食わせれば便利になるのは、頭では分かっている。でも、それを外のサーバーに送る最初の一歩が、どうしても踏み出せない。

これ、わがままでも時代遅れでもありません。むしろ逆です。預かっている情報に責任がある人ほど、当然抱く感覚です。社員の生活も、取引先との信頼も、その情報の扱い一つにかかっている。慎重になって当たり前なんです。

ローカルAIは、この壁を「性能アップ」では越えません。土俵そのものを変えて越えます。データが台所から一歩も出ないなら、「どこに行くの?」という問いそのものが、消えてなくなる。喋る相手がAIキャラであっても、その会話ログを外に出さずに済む。これは、AIをこわごわ触っていた層が、肩の力を抜ける転換点になり得ます。

たとえば、社内の相談ログをAIに整理させたい士業の方。患者さんの情報に触れる医療や介護の現場。取引先の見積りを日々さばく製造業。「便利さは欲しい。でもデータは絶対に外に出せない」。こういう現場ほど、ローカル完結の価値は跳ね上がります。クラウドだと一歩目で止まっていた人が、「これなら社内で閉じられる」と動き出せる。私が見てきた範囲でも、止まる理由のほとんどはここなんです。

私自身は「AIで選ばれる商品をつくる5つの型」でも書いたとおり、AIをサービスに組み込む側の人間です。だからこそ思います。「外に出せないデータがある現場」にAIを届ける鍵は、性能の競争ではなく、このローカル化のほうにある。派手ではないけれど、AIの裾野を確実に広げる動きです。

図解

クラウドAI音声 vs ローカルAI音声——どこが違う?

では、全部ローカルにすればいいのか。そう単純でもありません。毎回自分の台所で作るか、腕のいい店に任せるか。どちらにも良し悪しがあります。並べて整理してみます。

観点 クラウドAI音声(ChatGPT等) ローカルAI音声(Rinon Voice Lab)
データの行き先外部サーバーに送信自分のPC内で完結
使った分の費用利用量に応じて発生しがちソフト自体は無料(MITライセンス)。電気代とPC性能が前提
導入の手軽さアカウント登録ですぐセットアップに技術的な手間がかかる
カスタマイズ提供範囲内声・感情・キャラを自分で調整しやすい
必要な環境ネット接続ある程度のPC(GPU推奨)

ざっくり言えば、手軽さと最新性能ならクラウド。安心と自由度ならローカルです。どちらが偉いという話ではありません。

そのうえで、今回いちばん面白いのはここ。これまで「ローカルは性能が物足りない」と言われ続けてきた音声会話の領域で、その差がぐっと縮まってきたんです。家庭のキッチンでも、お店に負けない一皿が出せるようになってきた。料理人の私が言うのもなんですが、これは小さな革命だと思うんだよね。

図解

私のAIチームは、いまだに”クラウド派”です

ここまでローカルの良さを語っておいて、最後に大事なことを伝えます。私が毎日動かしているAIチーム——Claude CodeやCodexを束ねた仕組みは、いまだに、ほぼクラウド頼りです。

理由はシンプル。手軽だし、性能の最前線がそこにあるから。記事を書くのも、調べ物をさせるのも、段取りを組ませるのも、今のところクラウドのほうが速くて強い。だから私は使っています。これは妥協ではなく、いまの私にとっての合理的な選択です。胸を張って言います。ローカルが正義で、クラウドが悪、なんて単純な話ではないんです。

とはいえ、ずっと頭の片隅で鳴っている音があります。

この会話も、この原稿の素材も、全部どこかのサーバーを通ってるんだよな——任せる範囲を広げるほど、その”通り道”も太くなる。
— 毎日AIに任せながら、ずっと引っかかっていること

AIに任せる範囲を広げれば広げるほど、その通り道は太くなります。「AIに全部任せたら何が残る?」で書いた”委ねたあとに残るもの”の話と、ここは地続きです。委ねる相手が信頼できるかどうかは、性能だけで決まりません。「どこを通っているか」も、ちゃんと含めての話なんです。

だから、このローカルAIの進化は、私にとって宿題のリマインダーでした。「いつか、こっちに足場を移す日が来るぞ」という。今すぐ全部は移せません。それでいい。大事なのは、移せる選択肢が、現実に存在し始めたこと。これが今日いちばん伝えたかったことです。選べる、というだけで、人は前に進めるものなんですよね。

図解

エンジニアじゃなくても関係ある——「声」がAIとの距離を変える

「ローカルLLM」「TTS」。並ぶと、自分には縁のない用語に見えるかもしれません。でも本質は、ずっと身近な話です。一言でいえば、これ。

文字は”資料”だけど、声は”相手”になる。
— テキストと音声の、いちばん大きな違い

テキストで返ってくるAIと、声で返してくれるAI。この2つは、心の距離がまるで違います。文字だと、どこまでいっても便利な道具。でも声が乗った瞬間、急に”そこにいる誰か”になる。Irodori-TTSが日本語に特化して、しかも絵文字で感情のニュアンスまで指定できる——嬉しい、困った、落ち着いた。それは結局、この「相手感」を底上げするための工夫なんだね。

私はずっと、AIに”自分らしさ”を持たせる仕組みを追いかけてきました。「分身AIに自分の文体を覚えさせる3つの仕組み」「分身AIに魂を宿す共感ストーリー実装術」で書いてきた話です。文体の次に来るのは、たぶん”声”。声を持った瞬間、分身AIは「便利なツール」から「いてくれる存在」へ、一歩近づく。私はそう感じています。

図解

今日からの第一歩——試すなら何が要る?

「ちょっと触ってみたいな」と思った方へ。Rinon VoiceLabのGitHubに書かれている必要なものを、買い物リストとして整理しました(2026年6月時点・READMEより)。

部品 役割 用意するもの
PC・OS土台Windows 10/11が主対象(macOSは14+のApple Siliconで実験的対応)。NVIDIA GPU強く推奨
LM Studio頭脳を動かすローカルでLLM(例:gemma-4-12b-it)を読み込んで起動
Irodori-TTS声をつくる日本語特化のTTS。CUDA対応GPUで高速、CPUのみでも動作可
Python 3.10+/Git組み立て道具Rinon Voice Lab本体の導入に必要

声をつくるIrodori-TTSは、NVIDIAのGPUがあれば数秒で音声を生成します。これがかなり速い。しかもREADMEによれば、AMDのGPUやIntel、さらにGPUなしのCPUだけでも動く選択肢が用意されています。「うちのPC、ゲーミング機じゃないけど大丈夫かな」という人にも、まず試す入り口はある。もちろん快適さはGPUありが上です。でも「動かせるかどうか」のハードルは、思っていたより低い印象でした。

アカウント登録だけで終わるクラウドサービスに比べれば、ここは手間がかかります。「ボタン一つで全員が今すぐ」とはいきません。それは事実です。ただ、MITライセンスで公開されているので、まずGitHubのREADMEを”献立表”として眺めてみる。それだけでも、ローカルAIの解像度は一気に上がります。

いきなり全部入れようとしないこと。これがコツです。まずはLM Studioで、好きなモデルを一つ動かしてみる。台所に火を入れる前に、まず食材を手に取ってみる。その順番がおすすめです。一気にフルコースを作ろうとすると、たいてい途中で疲れて止まりますから。

図解

よくある質問(FAQ)

Q1. プログラミングができなくても使えますか?
A. 現時点では、セットアップに技術的な手間がかかります(Python・Git・GPU設定など)。気軽に、とは言いません。ただ、仕組みを”知る”ことには、誰にとっても価値があります。「クラウドに送らないAIという選択肢がある」と知っておくだけで、ツールの選び方が変わるからです。使う前に、まず知る。それで十分、第一歩です。

Q2. クラウドのAIと比べて、性能はどのくらい?
A. 用途によります。最新最大の言語モデルは、まだクラウドが強い。これは正直なところです。ただ今回のように「日本語の音声会話を、待ち時間少なく、感情までのせて返す」領域では、ローカルでも十分に実用的な体験になってきました。ASCII.jpの著者が「寝不足になるほど面白い」と書いたくらいですから。

Q3. 会社のデータを扱うのに本当に安全?
A. 「自分のPC内で完結する=外部に送らない」のが、ローカルAI最大の利点です。ここは強い。ただし、PCそのものの管理(紛失・ウイルス対策・アクセス権限)は別途必要です。通り道が短くなるのであって、管理しなくていいわけではない。ここは誤解されたくないので、はっきりお伝えしておきます。

Q4. 無料なんですか?
A. Rinon Voice LabもIrodori-TTSも、コードはMITライセンスで公開されています。ソフトの利用そのものに課金はありません。ただし、動かすPC(特にGPU)と電気代は自前です。「タダ」というより「自分の設備で回す」。この捉え方が正確だと思います。

ひろくんのコラム——「声」は、いちばん最後の一枚

私はAIチームに、毎朝とんでもない量の仕事を任せています。文章も、調べ物も、段取りも。ほぼ全部です。それでも不思議なもので、どれだけ任せても「便利な道具」の域を出ない瞬間がある。任せれば任せるほど、なぜか少しさみしい。そんな感覚すらありました。

その手前にある一枚が、たぶん”声”なんだと思います。文字で返ってくるうちは、資料。声で返ってきた瞬間、急に「相手」になる。今回のローカルAIを見て、いちばん胸に来たのは、性能でも速さでもなく、そこでした。これは距離の話なんだ、と。

しかもその声を、よその厨房ではなく、自分の台所で出せるようになった。AIを”こわい”と感じていた人が、肩の力を抜けるきっかけになる気がしています。私はまだクラウド派です。でも、自分の台所に火を入れる日は、思っているより近いのかな。

図解

まとめ——AIに”声”を、自分の台所で

Rinon Voice Labは、Gemma 4(頭脳)・Irodori-TTS(声)・アプリ本体(お皿)の3つを、クラウドに渡さず自分のPCだけで動かす仕組みでした。要点を、もう一度だけ。

  • 外に送らないAI:会話も素材も、自分の台所から出ない。だから「データどこ行くの?」という不安そのものが消える。
  • 手軽さはクラウド、安心と自由はローカル:どちらが上でもない。用途で選ぶ時代に入ってきた。
  • “声”は距離を変える:文体の次に来る”自分らしさ”の一枚。分身AIが「いてくれる存在」に近づく。
  • 第一歩はREADMEを眺めること:いきなり全部入れない。まずローカルでモデルを一つ動かす感覚から。

便利な厨房に通うのも、自分の台所に火を入れるのも、どちらもあなたの選択。
— クラウドかローカルか、に正解はない

クラウドのAI音声をまだ比べていない方は、先に「AI音声モード徹底比較」を読んでみてください。今日の”もう一段手前”の話が、ぐっと立体的になります。あなたの会社の言葉を、どこで料理するか。その選択肢が、ひとつ増えた。今日はそういう話でした。

参考・出典

LINE OPEN CHAT

Claude Code・AIエージェント実践会

2000人突破! インストールから自動化まで、仲間と一緒に実践しよう

LINEオープンチャットに参加する(無料)

パスコード: 1111

🤖 AI生成コンテンツについて

この記事はAIツール(Claude Code)を活用して制作しています。構成・文章生成・画像制作にAIを使用し、最終的な内容の確認・編集・公開判断はひろくん(田中啓之)本人が行っています。「分身AIひろくん」(bunshin-ai.com)とは別のコンテンツです。

上部へスクロール