ホーム » ブログ » 【2026年】ローカルAIが“声”を持つ日｜クラウドに渡さず、自分のPCだけでAIキャラが喋り出す（Rinon Voice Lab × Irodori-TTS）

【2026年】ローカルAIが“声”を持つ日｜クラウドに渡さず、自分のPCだけでAIキャラが喋り出す（Rinon Voice Lab × Irodori-TTS）

「AIに喋らせる」と聞くと、どこかのクラウドに音声を投げて、返してもらう絵を浮かべませんか。私もずっとそうでした。でも、その前提が崩れ始めています。自分のPCの中だけで、AIキャラクターが待ち時間ほぼゼロで、感情までのせて喋り出す。それが、個人開発のレベルで現実に動くようになりました。クラウドに何も送らずに、です。

きっかけは一本の記事でした。ASCII.jpの「寝不足になるほど面白いローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた」。著者の新清士さんが作った「Rinon Voice Lab」という仕組みの話です。読んで、思わず夜更かししました。

私はAIコンサルの主夫社長です。毎日、Claude CodeやCodexを”AIチーム”として束ね、コンテンツを回しています。だから断言できます。これは技術好きの遊びでは終わりません。経営者にこそ刺さる話です。今日はその理由を、いいところも、引っかかるところも、まるごとお伝えします。

「外に送らないAI」の、何がそんなに面白いのか

これまでの音声AIは、ほぼクラウド前提でした。マイクで拾った声も、打ち込んだテキストも、いったんネット越しのサーバーへ。処理されて、返ってくる。便利です。本当に便利。でも、よく考えてみてください。その裏であなたの言葉は、一度かならず社外に出ている。

料理にたとえると、これは「出汁をとるたびに、よその厨房まで食材を持っていく」状態です。味は安定する。プロが仕上げてくれる。けれど自分の台所には何も残らないし、食材の扱いも相手に任せきり。便利さと引き換えに、主導権を少しずつ手渡しているわけです。

今回のローカルAIは、ここを真逆にします。食材も、鍋も、火も、全部自分の台所に置いたまま。クラウドのAI音声を比べた話は「【2026年最新】AI音声モード徹底比較｜ChatGPT・Gemini・Claude・Grok・Perplexity」に書きました。でもあれは「どのクラウドの厨房を使うか」の比較です。今日はもっと手前。「そもそもクラウドに渡すのか、渡さないのか」という話をします。

ここを知っているかどうかで、AIツールの選び方が変わります。性能表だけ見て選んでいた人が、「待てよ、これはうちのデータがどこを通る道具なんだ」と一歩立ち止まれるようになる。その一歩が、けっこう大きいんだよ。

Rinon Voice Labとは何か——手元で完結する3つの部品

Rinon Voice Labは、新清士さんがGitHubで公開している「ローカルで動くキャラクター会話・音声アプリ」です（github.com/sakugetu/rinon-voice-lab・MITライセンス）。README本人の言葉では、こう書かれています。

Local character chat and speech app.（ローカルで動くキャラクター会話・音声アプリ）
— Rinon Voice Lab GitHub README より

仕組みは、ばらすと拍子抜けするくらいシンプルです。料理の三要素みたいなもの。頭脳と、声と、お皿。順番に見ていきます。

頭脳（LLM）= Gemma 4：Googleが公開している言語モデルです。Rinon Voice Labでは「LM Studio」というローカル実行ソフト経由で、gemma-4-12b-itのようなモデルを自分のPCで動かします。これが”何を喋るか”を考える部分。献立を決める、料理人の頭の中ですね。
声（TTS）= Irodori-TTS v3：Aratakoさんが公開している、日本語特化の音声合成モデルです（github.com/Aratako/Irodori-TTS・MITライセンス）。テキストを”声”に変える担当。READMEではこう位置づけられています。

A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control.（絵文字で話し方を操れる、Flow Matching方式の音声合成モデル）
— Irodori-TTS GitHub README より

面白いのは、ここ。入力テキストに添えた絵文字で、感情のニュアンスを指定できるんです。嬉しい顔の絵文字を足せば弾んだ声に、困った顔なら少し沈んだトーンに。文章の意味だけでなく、表情まで指で操れる感覚に近い。さらに、お手本の音声をちょっと聞かせるだけで声色を寄せる「ゼロショット音声クローン」にも対応しています。日本語に最適化されているぶん、あの”機械が読み上げてる感”が薄いのも効いてきます。

ガワ（アプリ）= Rinon Voice Lab：頭脳と声、この2つをつないで、キャラクター画像・字幕・会話速度・感情スタイルを画面でいじれるようにした本体です。盛り付けのお皿、と言ってもいい。1人のキャラと話す1Pモードに加えて、2体のキャラを並べて掛け合いさせる2Pモードまであります。AIキャラ2人の漫才を、自分のPCで眺める。そんな絵が普通に成立するわけです。

READMEを読み込むと、地味だけど効く機能がいくつも仕込まれていました。キャラごとのプロフィールや表情差分を差し替えられる。LLMに渡す前に軽いWeb検索メモを足せるオプションがある。そして極めつけが、音声生成だけを2台目のPCに逃がす「2P remote TTS」。頭脳と声を別々のマシンに分けて、負荷を散らす仕組みです。台所が手狭なら、隣の部屋にもうひとつコンロを置く。発想がそれです。

ここまで作り込まれていて、コードはMITライセンスで全公開。誰でも中身を読めて、改造もできる。正直、頭が下がりました。こういう個人開発が日本語圏で出てくること自体が、私にはうれしいニュースです。

この3つが、自分のPCの中で手をつなぐ。すると何が起きるか。ASCII.jpの記事には、こう書かれています。

AIのキャラクターと、待ち時間がほとんどない状態で、ほぼシームレスにやり取りができ、AIの返答は音声で返ってきます。発話ごとに感情表現もされるため、自然な発話になっています。
— ASCII.jp 新清士「ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた」より

そして、この記事でいちばん大事な一文が、これ。

これらがローカルPC上の技術の組み合わせで実現できているということです。
— 同上

クラウドに頼らず、手元だけで。ここが今日の核心です。

なぜ「ローカル完結」が経営者に効くのか

経営者の方とAI導入の話をしていて、いちばん多く出てくる本音は、性能ではありません。スピードでもコストでもない。ほぼ毎回、出てくるのはこれです。

「うちの会社の情報、それ、どこに行くんですか？」
— AI導入相談でいちばん多い、経営者の本音

顧客名簿。見積り。社内のやり取り。まだ世に出していない企画。AIに食わせれば便利になるのは、頭では分かっている。でも、それを外のサーバーに送る最初の一歩が、どうしても踏み出せない。

これ、わがままでも時代遅れでもありません。むしろ逆です。預かっている情報に責任がある人ほど、当然抱く感覚です。社員の生活も、取引先との信頼も、その情報の扱い一つにかかっている。慎重になって当たり前なんです。

ローカルAIは、この壁を「性能アップ」では越えません。土俵そのものを変えて越えます。データが台所から一歩も出ないなら、「どこに行くの？」という問いそのものが、消えてなくなる。喋る相手がAIキャラであっても、その会話ログを外に出さずに済む。これは、AIをこわごわ触っていた層が、肩の力を抜ける転換点になり得ます。

たとえば、社内の相談ログをAIに整理させたい士業の方。患者さんの情報に触れる医療や介護の現場。取引先の見積りを日々さばく製造業。「便利さは欲しい。でもデータは絶対に外に出せない」。こういう現場ほど、ローカル完結の価値は跳ね上がります。クラウドだと一歩目で止まっていた人が、「これなら社内で閉じられる」と動き出せる。私が見てきた範囲でも、止まる理由のほとんどはここなんです。

私自身は「AIで選ばれる商品をつくる5つの型」でも書いたとおり、AIをサービスに組み込む側の人間です。だからこそ思います。「外に出せないデータがある現場」にAIを届ける鍵は、性能の競争ではなく、このローカル化のほうにある。派手ではないけれど、AIの裾野を確実に広げる動きです。

クラウドAI音声 vs ローカルAI音声——どこが違う？

では、全部ローカルにすればいいのか。そう単純でもありません。毎回自分の台所で作るか、腕のいい店に任せるか。どちらにも良し悪しがあります。並べて整理してみます。

観点	クラウドAI音声（ChatGPT等）	ローカルAI音声（Rinon Voice Lab）
データの行き先	外部サーバーに送信	自分のPC内で完結
使った分の費用	利用量に応じて発生しがち	ソフト自体は無料（MITライセンス）。電気代とPC性能が前提
導入の手軽さ	アカウント登録ですぐ	セットアップに技術的な手間がかかる
カスタマイズ	提供範囲内	声・感情・キャラを自分で調整しやすい
必要な環境	ネット接続	ある程度のPC（GPU推奨）

ざっくり言えば、手軽さと最新性能ならクラウド。安心と自由度ならローカルです。どちらが偉いという話ではありません。

そのうえで、今回いちばん面白いのはここ。これまで「ローカルは性能が物足りない」と言われ続けてきた音声会話の領域で、その差がぐっと縮まってきたんです。家庭のキッチンでも、お店に負けない一皿が出せるようになってきた。料理人の私が言うのもなんですが、これは小さな革命だと思うんだよね。

私のAIチームは、いまだに”クラウド派”です

ここまでローカルの良さを語っておいて、最後に大事なことを伝えます。私が毎日動かしているAIチーム——Claude CodeやCodexを束ねた仕組みは、いまだに、ほぼクラウド頼りです。

理由はシンプル。手軽だし、性能の最前線がそこにあるから。記事を書くのも、調べ物をさせるのも、段取りを組ませるのも、今のところクラウドのほうが速くて強い。だから私は使っています。これは妥協ではなく、いまの私にとっての合理的な選択です。胸を張って言います。ローカルが正義で、クラウドが悪、なんて単純な話ではないんです。

とはいえ、ずっと頭の片隅で鳴っている音があります。

この会話も、この原稿の素材も、全部どこかのサーバーを通ってるんだよな——任せる範囲を広げるほど、その”通り道”も太くなる。
— 毎日AIに任せながら、ずっと引っかかっていること

AIに任せる範囲を広げれば広げるほど、その通り道は太くなります。「AIに全部任せたら何が残る？」で書いた”委ねたあとに残るもの”の話と、ここは地続きです。委ねる相手が信頼できるかどうかは、性能だけで決まりません。「どこを通っているか」も、ちゃんと含めての話なんです。

だから、このローカルAIの進化は、私にとって宿題のリマインダーでした。「いつか、こっちに足場を移す日が来るぞ」という。今すぐ全部は移せません。それでいい。大事なのは、移せる選択肢が、現実に存在し始めたこと。これが今日いちばん伝えたかったことです。選べる、というだけで、人は前に進めるものなんですよね。

エンジニアじゃなくても関係ある——「声」がAIとの距離を変える

「ローカルLLM」「TTS」。並ぶと、自分には縁のない用語に見えるかもしれません。でも本質は、ずっと身近な話です。一言でいえば、これ。

文字は”資料”だけど、声は”相手”になる。
— テキストと音声の、いちばん大きな違い

テキストで返ってくるAIと、声で返してくれるAI。この2つは、心の距離がまるで違います。文字だと、どこまでいっても便利な道具。でも声が乗った瞬間、急に”そこにいる誰か”になる。Irodori-TTSが日本語に特化して、しかも絵文字で感情のニュアンスまで指定できる——嬉しい、困った、落ち着いた。それは結局、この「相手感」を底上げするための工夫なんだね。

私はずっと、AIに”自分らしさ”を持たせる仕組みを追いかけてきました。「分身AIに自分の文体を覚えさせる3つの仕組み」や「分身AIに魂を宿す共感ストーリー実装術」で書いてきた話です。文体の次に来るのは、たぶん”声”。声を持った瞬間、分身AIは「便利なツール」から「いてくれる存在」へ、一歩近づく。私はそう感じています。

今日からの第一歩——試すなら何が要る？

「ちょっと触ってみたいな」と思った方へ。Rinon VoiceLabのGitHubに書かれている必要なものを、買い物リストとして整理しました（2026年6月時点・READMEより）。

部品	役割	用意するもの
PC・OS	土台	Windows 10/11が主対象（macOSは14+のApple Siliconで実験的対応）。NVIDIA GPU強く推奨
LM Studio	頭脳を動かす	ローカルでLLM（例：gemma-4-12b-it）を読み込んで起動
Irodori-TTS	声をつくる	日本語特化のTTS。CUDA対応GPUで高速、CPUのみでも動作可
Python 3.10+／Git	組み立て道具	Rinon Voice Lab本体の導入に必要

声をつくるIrodori-TTSは、NVIDIAのGPUがあれば数秒で音声を生成します。これがかなり速い。しかもREADMEによれば、AMDのGPUやIntel、さらにGPUなしのCPUだけでも動く選択肢が用意されています。「うちのPC、ゲーミング機じゃないけど大丈夫かな」という人にも、まず試す入り口はある。もちろん快適さはGPUありが上です。でも「動かせるかどうか」のハードルは、思っていたより低い印象でした。

アカウント登録だけで終わるクラウドサービスに比べれば、ここは手間がかかります。「ボタン一つで全員が今すぐ」とはいきません。それは事実です。ただ、MITライセンスで公開されているので、まずGitHubのREADMEを”献立表”として眺めてみる。それだけでも、ローカルAIの解像度は一気に上がります。

いきなり全部入れようとしないこと。これがコツです。まずはLM Studioで、好きなモデルを一つ動かしてみる。台所に火を入れる前に、まず食材を手に取ってみる。その順番がおすすめです。一気にフルコースを作ろうとすると、たいてい途中で疲れて止まりますから。

よくある質問（FAQ）

Q1. プログラミングができなくても使えますか？
A. 現時点では、セットアップに技術的な手間がかかります（Python・Git・GPU設定など）。気軽に、とは言いません。ただ、仕組みを”知る”ことには、誰にとっても価値があります。「クラウドに送らないAIという選択肢がある」と知っておくだけで、ツールの選び方が変わるからです。使う前に、まず知る。それで十分、第一歩です。

Q2. クラウドのAIと比べて、性能はどのくらい？
A. 用途によります。最新最大の言語モデルは、まだクラウドが強い。これは正直なところです。ただ今回のように「日本語の音声会話を、待ち時間少なく、感情までのせて返す」領域では、ローカルでも十分に実用的な体験になってきました。ASCII.jpの著者が「寝不足になるほど面白い」と書いたくらいですから。

Q3. 会社のデータを扱うのに本当に安全？
A. 「自分のPC内で完結する＝外部に送らない」のが、ローカルAI最大の利点です。ここは強い。ただし、PCそのものの管理（紛失・ウイルス対策・アクセス権限）は別途必要です。通り道が短くなるのであって、管理しなくていいわけではない。ここは誤解されたくないので、はっきりお伝えしておきます。

Q4. 無料なんですか？
A. Rinon Voice LabもIrodori-TTSも、コードはMITライセンスで公開されています。ソフトの利用そのものに課金はありません。ただし、動かすPC（特にGPU）と電気代は自前です。「タダ」というより「自分の設備で回す」。この捉え方が正確だと思います。

ひろくんのコラム——「声」は、いちばん最後の一枚

私はAIチームに、毎朝とんでもない量の仕事を任せています。文章も、調べ物も、段取りも。ほぼ全部です。それでも不思議なもので、どれだけ任せても「便利な道具」の域を出ない瞬間がある。任せれば任せるほど、なぜか少しさみしい。そんな感覚すらありました。

その手前にある一枚が、たぶん”声”なんだと思います。文字で返ってくるうちは、資料。声で返ってきた瞬間、急に「相手」になる。今回のローカルAIを見て、いちばん胸に来たのは、性能でも速さでもなく、そこでした。これは距離の話なんだ、と。

しかもその声を、よその厨房ではなく、自分の台所で出せるようになった。AIを”こわい”と感じていた人が、肩の力を抜けるきっかけになる気がしています。私はまだクラウド派です。でも、自分の台所に火を入れる日は、思っているより近いのかな。

まとめ——AIに”声”を、自分の台所で

Rinon Voice Labは、Gemma 4（頭脳）・Irodori-TTS（声）・アプリ本体（お皿）の3つを、クラウドに渡さず自分のPCだけで動かす仕組みでした。要点を、もう一度だけ。

外に送らないAI：会話も素材も、自分の台所から出ない。だから「データどこ行くの？」という不安そのものが消える。
手軽さはクラウド、安心と自由はローカル：どちらが上でもない。用途で選ぶ時代に入ってきた。
“声”は距離を変える：文体の次に来る”自分らしさ”の一枚。分身AIが「いてくれる存在」に近づく。
第一歩はREADMEを眺めること：いきなり全部入れない。まずローカルでモデルを一つ動かす感覚から。

便利な厨房に通うのも、自分の台所に火を入れるのも、どちらもあなたの選択。
— クラウドかローカルか、に正解はない

クラウドのAI音声をまだ比べていない方は、先に「AI音声モード徹底比較」を読んでみてください。今日の”もう一段手前”の話が、ぐっと立体的になります。あなたの会社の言葉を、どこで料理するか。その選択肢が、ひとつ増えた。今日はそういう話でした。

参考・出典

ASCII.jp 新清士「寝不足になるほど面白いローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた」 https://ascii.jp/elem/000/004/408/4408692/
Rinon Voice Lab（GitHub・MIT） https://github.com/sakugetu/rinon-voice-lab
Irodori-TTS（GitHub・MIT） https://github.com/Aratako/Irodori-TTS

LINE OPEN CHAT

Claude Code・AIエージェント実践会

2000人突破！インストールから自動化まで、仲間と一緒に実践しよう

LINEオープンチャットに参加する（無料）

パスコード: 1111

🤖 AI生成コンテンツについて

この記事はAIツール（Claude Code）を活用して制作しています。構成・文章生成・画像制作にAIを使用し、最終的な内容の確認・編集・公開判断はひろくん（田中啓之）本人が行っています。「分身AIひろくん」（bunshin-ai.com）とは別のコンテンツです。

AI氣道 — 三方よしのAI活用

家事と子育てのスキマで経営する、ひろくんのAIブログ

📺 毎朝無料LIVE配信中！見逃しても大丈夫、アーカイブも完全無料。

記事も完全無料。見逃しても大丈夫！

YouTubeチャンネル: @AIKIDO-GPTs

曜日	時間	メインホスト	ゲスト	テーマ
月	7:00〜	ひろくん	ただっち	AI最新ニュース・実験
月	13:00〜	ひろくん	れんくん（戸野塚蓮）	AI経営術LIVE
火	6:30〜	ひろくん	公ちゃん	共感ストーリー×分身AI
水	6:30〜	ひろくん	高崎さん・たくみくん	AI×開発・教育
木	7:00〜	ただっち	ともみん	AI×デザイン
金	7:00〜	ただっち	友くん	AIツール最前線
土	7:00〜	ただっち	ゆきちゃん	AI×起業・発信
日	7:00〜 / 8:00〜	WACAコラボ	ひろくん+仲間たち	生成AI最新ニュースまとめ

📍 日曜日のZOOM（7:00〜）は登録制です。詳細・登録はこちら

🔥 火曜15:00〜社長モテる化計画LIVEもやってるよ！

【2026年】ローカルAIが“声”を持つ日｜クラウドに渡さず、自分のPCだけでAIキャラが喋り出す（Rinon Voice Lab × Irodori-TTS）

「外に送らないAI」の、何がそんなに面白いのか

Rinon Voice Labとは何か——手元で完結する3つの部品

なぜ「ローカル完結」が経営者に効くのか

クラウドAI音声 vs ローカルAI音声——どこが違う？

私のAIチームは、いまだに”クラウド派”です

エンジニアじゃなくても関係ある——「声」がAIとの距離を変える

今日からの第一歩——試すなら何が要る？

よくある質問（FAQ）

ひろくんのコラム——「声」は、いちばん最後の一枚

まとめ——AIに”声”を、自分の台所で

[最新ニュース]

Codex App ServerでShopifyテーマをZIPで丸ごと作る！アプリを”自分仕様”に改造する実演

Claude Fable 5時代の「ループエンジニアリング」入門——AIに毎回お願いする働き方は、もう古い？

Claude最強モデルがついに一般公開？NotebookLMも進化【最新AIニュース解説】2026年6月10日号

iPhoneの自動化、Siri、Claudeまで｜WWDCのAIニュース【最新AIニュース解説】2026年6月9日号

HERMES×UltraCode時代に残る「人間の領域」｜AI氣道朝LIVE

週刊GPTs研究会｜AIを自前で持つ×実行まで任せるCodex×Claude Code入門（2026年6月1週）