TO TOP

産業ロボットの常識を覆す。RLWRLDのHoon Leeが語る、「ルールで動くロボット」の終わりとフィジカルAIの始まり

NEW

読了時間:約 13 分

This article can be read in 13 minutes

世界各地の工場や倉庫で、産業ロボットの導入が進んできた。しかしこれまでのロボットは「決められたことを、決められた環境でやる」存在だった。そこに今、根本的なパラダイムシフトが起きようとしている。生成AIと同じディープラーニングの原理でロボットを動かす「フィジカルAI」だ。

AmazonやBMWの工場での実証が始まり、Boston Dynamicsが2028年に年間3万台規模の量産工場の稼働を宣言。産業現場の風景が3〜4年で大きく変わろうとしている。

その最前線で、産業向けフィジカルAI基盤モデルの開発を進めるのが、韓国発スタートアップのRLWRLDだ。製造・物流・サービスの3領域で日本企業との協業を加速させている。同社日本代表のHoon Lee氏に、フィジカルAIの本質から日本市場の可能性と課題まで、率直に語ってもらった。

Hoon Lee
RLWRLD 日本代表
ボストン コンサルティング グループ(BCG)などを経て、2025年にRLWRLD日本代表に就任

ポイント

・従来の産業ロボットは「ルールで動く」制約から脱せられず、フィジカルAIはディープラーニングで環境変化に柔軟に対応する次世代技術。
・産業現場は家庭環境より変数が多く複雑。製造・物流・サービスに特化した良質なデータの獲得が、高精度モデル構築の鍵となる。
・データ収集はテレオペレーションと映像キャプチャの2手法が主流。映像活用により低コスト・短期間での学習が可能に。
・2026年がスコープ確定の年、2027年に量産ヒューマノイドの現場投入が始まるとの見立て。今から準備する企業が果実を手にする。
・日本固有の課題はハードウェアの遅れ・稟議型意思決定・「最初から完璧」というロボット観の3点。マインドセットの転換が導入成功の分岐点。

INDEX

産業ロボットとフィジカルAI。「ルールで動くロボット」の限界
世界はどうなっているのか?アメリカ・中国・韓国、三者三様のリアル
なぜ産業現場なのか。RLWRLDが家庭向けに振らない理由
2027年、現場にヒューマノイドが来る。タイムラインと今から準備すべきこと
日本の課題と可能性。ハード・意思決定・ロボット観、三つのネック

産業ロボットとフィジカルAI。「ルールで動くロボット」の限界

――フィジカルAIという言葉が広がってきていますが、そもそも従来の産業ロボットと何が違うのでしょうか?

Hoon Lee:見た目は同じですが、動かしているソフトウェアが根本から違います。これまでの産業ロボットはすべて「ルールをプログラミングすること」で動いています。たとえば目の前のカップを掴む動作1つとっても、まずカップをスキャンして、重心の中心点はどこか、正面と裏面はどちらか——そういうルールを全部プログラムに入力しないといけません。ロボットはそのルールの範囲内でしか動けないんです。

問題は、ルールの外に出たときです。部屋が少し暗くなった、カップの形が少し変わった、それだけで失敗します。対応策は「ルールを更新する」か「環境を完全に統制する」の2択しかない。だから正直に言いますと、環境を統制する制約が邪魔をして、従来の産業ロボットの市場はここ10年、ほとんど成長していなかったんです。

――それに対して、フィジカルAIはどういう原理で動くのでしょうか。

Hoon Lee:フィジカルAIの原理は、皆さんがお使いのChatGPTやGeminiとまったく同じです。ディープラーニング、つまりエンドツーエンドの学習です。

人の脳みそが学習するパターンとよく似ていて、たとえば赤ちゃんは生まれた瞬間から「火が熱い」とわかっているわけではないですよね。実際に触れて「熱い」と学ぶ。あるいは親から「触っちゃダメ」と言われる。そうやって脳のなかの情報の重みが最適化されていく。ディープラーニングも同じ仕組みです。

LLMで言えば、最初に大量のテキストデータを読ませて、人が点数をつけて(強化学習)、それを何百万回と繰り返す。プログラミングは一切やっていません。フィジカルAIも同じで、ロボットにルールを教えるのではなく、動画や遠隔操作のデータをエンドツーエンドで学習させます。そうすると、どんな環境の変化にも対応できるロボットの基盤モデルができあがるのです。

――ロボットの動作を考えたときに、AIはどこに使われているのでしょうか。

Hoon Lee:フィジカルAIのロボット基盤モデルは、大きく「システム1」と「システム2」の2層に分かれています。

システム2が、ChatGPTと同じVLM(ビジョン言語モデル)です。実際に体を動かす前に、「このカップをどう掴むか」を自分で計画・推論する、いわば大脳の役割です。そしてその計画を受けて、実際に物理的な動作を生成するのがシステム1で、アクションモデルと呼ばれる部分です。目で見て考えて、体を動かす。人間がやっていることとほぼ同じ構造ですね。

――ということは、カメラの精度が低いと、ロボットの動きも悪くなるのでしょうか。

Hoon Lee:高性能なセンサーを活用すれば、より精度の高い理解ができることは確かです。ただ最近は、そういった高価なセンサーがなくても、世界をより深く理解できるAIモデルが登場してきています。人間で考えた場合、近眼でも眼鏡なしで大体わかるし動けるじゃないですか。それと同じように、ハードウェアが安くても、AIモデル側でカバーできる技術が徐々に出てきています。

さらに付け加えると、触覚もロボットにとって重要な要素になってきています。人間は、目で見えなくても触覚を使って物を掴んだり組み立てたりすることができますよね。当社も触覚を学習できる4D+モデルを保有しており、こうしたモデルがあれば、カメラの性能に関わらず、ロボット基盤モデルが世界をより深く理解し、タスクの成功率を高めることに貢献すると考えています。

世界はどうなっているのか?アメリカ・中国・韓国、三者三様のリアル

――フィジカルAIはグローバルでどこまで社会実装が進んでいるのでしょうか。

Hoon Lee:正直に言いますと、日本はグローバルと比べて少し遅れています。

アメリカの代表的な事例は2つあって、1つはAmazonのEC物流倉庫でのAgility Roboticsの導入です。空っぽのカゴを整理するタスクをフィジカルAIで実証しています。もう1つはFigure AIがBMWの工場で、モノを持って運ぶ作業をやっていました。ただ、アメリカのフィジカルAI企業のデモ動画を見ると、Skild AIやPhysical Intelligenceなど、大体が家庭環境の家事のデモなんですよね。

社会実装で先を行っているのは中国だと思っています。自動車工場や家電メーカーの工場での実証が進んでいて、最近は映画館でポップコーンの注文対応をするロボットや、トラックを使った無人店舗にロボットを導入するといった事例も出てきています。産業・家庭の両方をバランスよくやっているのが中国の印象です。

――韓国はどうでしょうか。

Hoon Lee:韓国はまだ大規模な現場実証という段階ではないですが、計画は急速に広がっています。HyundaiグループのBoston Dynamicsが、2028年に年間3万台規模の量産工場の稼働を発表していますし、SamsungグループのRainbow Roboticsなど、韓国国内のハードウェア企業も充実している。また労働組合の問題が今まさに深刻になっていて、フィジカルAIへの現実的な動機は十分にあります。

ただ、韓国も人手不足という意味では、今後5〜10年で日本と同じ課題に直面すると思っています。日本と人口動態が似ていて、時間軸が少し遅いだけで、同じことが起こっていくはずです。

――なぜアメリカのスタートアップは家庭向けに集中しているのでしょうか。

Hoon Lee:理由は大きく2つあると思っています。1つ目は、アメリカは意外と製造業が少ないんです。工場は多いのですが、それが全部外国企業の工場になっていて、アメリカ企業が産業データを取るのが難しい環境です。

2つ目は法規制です。アメリカはデータのIP帰属や企業間の協業に関して法律が非常に厳しく、企業同士でデータを協業する話がなかなか成立しません。だから産業データを取るのがすごく難しい環境になっているのです。その結果、データを取りやすい家庭環境に向かっているというのが実態だと思います。Airbnbのように個人からパーミッションを取れば、データの収集が比較的容易ですから。

もう1つ補足すると、アメリカのフィジカルAIスタートアップは、創業者が大学教授や研究者出身の方が多いんです。資金は十分にあるので、やりたい研究を優先できる。そういう創業者の特性も、家庭向けに振れている理由の1つじゃないかと思っています。

なぜ産業現場なのか。RLWRLDが家庭向けに振らない理由

――RLWRLDはなぜ産業に特化しているのでしょうか。アメリカとは逆の方向に振ったのには、何か理由があったのですか。

Hoon Lee:自動運転を例にするとわかりやすいと思います。テスラの自動運転はアメリカでは全国で走れますが、中国に持ってくるとうまく走れません。でも逆はできる。中国のMomentaなどで自動運転を学習した車は、アメリカでもよく走ります。

なぜかというと、中国の道路環境はアメリカと比べてはるかに過酷だからです。過酷な環境で鍛えられたモデルは、比較的穏やかな環境にも対応できる。でも逆はなかなか難しい。

フィジカルAIも同じです。産業現場というのは、家庭環境と比べて変数がずっと多くて複雑です。そこでのデータを最初から取って、現場での実証に集中する。そうすれば、アメリカ企業が家庭データで鍛えたモデルよりも、現場への適応力が高いモデルができあがります。それに、アメリカ勢は家庭向けを攻めているので、産業向けは別の市場を戦っていることになります。技術的なアーキテクチャは近くても、市場領域が違う。直接競合しないんです。

――製造・物流・サービスの3領域を同時にやろうとすると、それぞれ別の技術が必要になる気がするのですが。

Hoon Lee:それが意外とそうでもないんです。たとえば、コンビニでの品出し作業と、物流倉庫でのピッキング作業。人間から見れば全然違うタスクで、違う産業ですよね。でも、ロボットから見ると、ものを認識する・掴む・適切な場所に置くという同じスキルなんです。

従来の産業ロボットは、環境を統制してルールをプログラムしないといけないので、産業ごとに特化するしかありませんでした。しかし、フィジカルAIはそうじゃない。パターンを学ぶから、似たスキルは横断して使えます。少量多品種だったり、環境の変化が激しい現場であればあるほど、フィジカルAIの価値が高くなっていきます

――日本に着目した理由は何でしょうか。

Hoon Lee:一番大きいのは、製造業が多く良質なデータが日本にあるという確信です。すべてのディープラーニングにとって、データが最も重要です。LLMでも自動運転でもフィジカルAIでも同じで、良いデータがあるところに良いモデルが生まれる。

加えて、2025年初めの資金調達ラウンドで、KDDIさん・三井化学さん・島津製作所さん・グローバルブレインさんなど、日本の大手企業やVCから投資をいただきました。それと同時に、「うちの現場でやってみたい」「一緒に協業していきましょう」という要請も相次いで来るようになって、日本市場での展開を本格的に決めた形です。

――具体的にどんな事業モデルで協業するのですか。

Hoon Lee:基本的には、当社が基盤モデルの技術を提供して、顧客がデータを提供する形です。そのデータは共同で保有します。

たとえば物流倉庫に特化した基盤モデルができたとすれば、それは当社と顧客が共同で保有して、そこから生まれる売上もシェアするというスキームです。自社で基盤モデルを作る体力はないけれど、自社専用のAIモデルが欲しいという大手企業に対して、一番フィットするパートナーになれると思っています。

今は、まず当社の技術を証明してから進めたいという企業と、もう信頼しているのですぐ始めましょうという企業が、大体3対1くらいの割合でいます。全部並行して進めているところです。

――フィジカルAIを学習させるためのデータは、どうやって集めるのでしょうか。動画を何百回も撮らないといけないとなると、導入のハードルが高そうに思います。

Hoon Lee:データの収集方法は大きく2つあります。1つ目がテレオペレーション、遠隔操作です。人がロボットを操作しながらタスクをこなして、ロボット視点のデータを収集する方法です。簡単なタスクであれば100〜200回、難しいタスクでも1,000〜2,000回やれば一旦タスクをこなせるようになります。期間でいうと、難しいタスクでも2週間から1ヶ月くらいで完了できます。

2つ目が映像からの学習、ヒューマンデータキャプチャーです。人間が実際に作業している映像をそのままキャプチャして学習させる方法で、テレオペより2〜3倍のデータ量が必要ですが、撮影コストが圧倒的に低い。

極端な話、仕事している様子をずっと撮っておけばいいということです。頭部にカメラをつけて普通に業務をするだけでデータが貯まっていく。50人の従業員にカメラをつければ、1週間で難しいタスクのデータも取り切れる可能性があります。

――今はどちらの手法が主流になっているのでしょうか。

Hoon Lee:近年は、映像データの収集への注目が急速に高まっています。毎月技術が進化していて、たとえば頭部カメラでの撮影でも十分なデータが取れるようになってきました。テレオペはロボットを遠隔操作するので時間もコストもかかりますが、映像はそこまでかからない。みんな一斉に映像からのデータ収集に注目しています

――では産業向けで鍛えたモデルを、将来的に家庭向けに転用することはできるのでしょうか。

Hoon Lee:技術的にはかなり難しい話になります。LLMはテキストという1次元のデータですが、ロボットはそうじゃありません。視覚・触覚・3次元空間・時間軸、次元がずっと高い。それに、ChatGPTはたまに失敗してもやり直せばいいんですが、現場のロボットはそうじゃないですよね。高い成功率が常に求められます。

少なくとも3〜4年は、産業向けのモデルと家庭向けのモデルは別々に進化していくと思っています。同じキッチンでも、2つとして全く同じ環境はないですし、毎年新しい食器や服が出てくる。家事だけでも変数が膨大で、専用のモデルでも習得にかなりの時間がかかるはずです。

2027年、現場にヒューマノイドが来る。タイムラインと今から準備すべきこと

――ヒューマノイドが現場に来るまでのロードマップは、どう見えていますか。

Hoon Lee:私の見立てでは、2026年がスコープを決める年です。どの現場に、何台入れるかという企画が固まる「最終テスト期」になると思っています。そして2027年に、量産されたヒューマノイドが現場に本格投入されるでしょう。

Boston DynamicsやUnitree(中国)、Figure AI(アメリカ)など、各社が数万台規模の量産計画を発表しています。脳みその部分(基盤モデル)とハードの部分(ヒューマノイド)が今まさに両輪で進化していて、お互いがウィンウィンの関係で急速に発展しています。当社も2026年4月から、ある物流倉庫の現場で政府の補助金プロジェクトの一環として実証を計画しています。警備やファシリティマネジメント(清掃・部品補充など)の領域でも協業の議論が始まっていますし、2027年には日本のどこかで人とヒューマノイドが一緒に作業しているシーンが見られると思います。

――人とヒューマノイドが一緒に働くというのは、法律上も問題ないのですか。

Hoon Lee:従来の産業ロボットは、法律上、人が同じエリアに入ることができません。安全柵を作ることが義務づけられています。ただ、すでに協働ロボット(コボット)という、人と同一空間で作業できるロボットが法律上認められていて、名前の通り「人と共に働くロボット」として現場に入っています。

ヒューマノイドは今のところグレーゾーンで、まだ法律が追いついていない状況です。ただ、おそらくコボットより緩い規制になっていくと思っています。

――ヒューマノイドという形状にこだわる理由は何でしょうか。車輪型や短腕でも良さそうな気がしますが。

Hoon Lee:フィジカルAIのデータ収集を考えると、ヒューマノイド型が一番効率がいいんです。映像からの学習で使うデータは、ほぼすべて「人間が腕2本で動いている映像」です。ロボットが人間と同じ形状であれば、そのデータをそのまま学習に使えます。腕が1本しかないロボットに「腕2本のデータ」を学習させても、うまくいかないですよね。

もちろんAMR(自律移動ロボット)にアームをつけるなど、ヒューマノイド以外の形態も進化はしています。ただ、基本的にはヒューマノイドが最も学習効率が高いフォームファクターです。

日本の課題と可能性。ハード・意思決定・ロボット観、三つのネック

――日本固有の課題という観点では、何が一番のネックになりそうでしょうか。

Hoon Lee:一番のネックはハードウェアです。日本は産業ロボットでは世界でもトップクラスの強さを持っています。でも、ヒューマノイドになると話が全然違って、中国やアメリカに大きく後れをとっています。

日本の大手企業としても、外国製のヒューマノイドに依存したくない気持ちはある。でも、国内で探しても量産できる企業がほとんどいない。「産業ロボットが強すぎた」ことが、ヒューマノイドへの投資を遅らせた一因になっていると思います。

ただ、日本のアクチュエーター企業などから「基盤モデルを開発している会社と一緒に設計したい」という要請は来ています。どういうハードが一番最適かを知っているのは、脳みそを作っている側ですから。パートナーと共同設計して、量産はパートナー側でやるという形での動きも出てきています。

――ハード以外の課題はありますか。

Hoon Lee:2つあります。1つは意思決定のプロセスです。日本の大企業では、いろんな方が参加して合意を取っていく、稟議型の意思決定が多いですよね。それはそれで素晴らしい文化だと思っています。ただ、フィジカルAIのような先端領域では、スピードが求められます。意思決定に時間がかかることが、導入の速度を落とすケースがある。

ただし、これは逆に言えば「51%の合意が取れたら一気に動く」ということでもあります。合意さえ取れれば、そこからの実行力は高い。ここがポイントになると思っています。

――もう1つの課題というのは?

Hoon Lee:ロボットに対する認識のズレです。日本はロボット先進国として、従来の産業ロボットを長年使ってきました。そのため、ロボットを導入する際のプロセスが「プログラムが完成したら搬入、最初から99.9%の精度で稼働して当然」というイメージで染み付いているんです。

でも、フィジカルAIはLLMと同じで、最初から完璧には動きません。最初は7割の成功率でも、学習させながら3ヶ月で9割以上まで引き上げていく。一緒に育てていくものです。「最初からできないとダメ」という考え方でいると、導入がうまくいきません。

逆に言えば、「LLMと同じように、学習させれば賢くなる」という感覚を持てる企業とは、協業がすごくスムーズに進んでいます。「今から一緒にデータを貯めて、ファインチューニングして、賢くしていきましょう」そういうマインドセットを持てる企業が、2〜3年後の果実を手にすることになります

――人手不足との関係はどうでしょうか。導入が進めば、ロボットに仕事が奪われるという懸念もありそうですが。

Hoon Lee:当社がまず自動化を進めたいのは、危険で、単純な繰り返しで、過酷な作業です。人間の仕事を奪うというよりは、人がやるには厳しすぎる現場を支援する、保護するという考え方でいます。

それに、人手不足の問題は今すでに相当深刻です。羽田空港の機内清掃は現在100%が外国人労働者で、地方空港になるともっと厳しいと言われています。人手が足りなくて飛行機がその日に折り返せず翌日に持ち越す(ステイオーバー)ケースも増えています。2025年時点で、日本のコンビニの12%が人手不足を理由に24時間営業をやめています。

この問題は、このまま良くなる要素がない。だからこそ、フィジカルAIは「人の仕事を奪う技術」ではなく、「現場を守る技術」として位置づけられていくと思っています。

――最後に、この記事を読んでいる日本の大手企業の方々へ、メッセージをいただけますか。

Hoon Lee:ChatGPTは約3年かけて世界を変えました。フィジカルAIは「3年で全てが変わる」とも言われています。今は表面上は何も変わっていないように見えるかもしれませんが、裏側ではすごく動いています。3〜4年後に、ヒューマノイドが当たり前のように現場にいる、そういう世界が来ます。

そのときに果実を取れる企業は、今から準備を始めた企業だけです。まず現場でデータを集めることから始められます。自社で基盤モデルを作る必要はない。データを持っていれば、それが最大の資産になります。

当社の事業モデルは、技術は弊社が持ち込む、データはお客様に提供していただく、成果は一緒に分かち合う、というものです。フィジカルAIの準備を本気で始めたい企業がいれば、ぜひ一度話しましょう。

企画:阿座上陽平
取材・編集:BRIGHTLOGG,INC.
文:鈴木光平
撮影:阿部拓朗