新たな制約を概観したうえで、経営が検討すべきことをそれぞれの制約に対して整理してみる。
「次のAIは、画面の外に出る」――2026年1月に開催された世界最大級のデジタル技術見本市CES(ラスベガス)を通じて垣間見られた新たなAIトレンドは、この言葉に集約できるものだった。会場で示されていたのは、文章や画像を生成する知能の延長線ではない。AIが行動し、外部環境に働きかけ、その結果を受け取り、次の行動を選び直す――現実世界と相互作用する知能へと進んでいく。CES全体を見渡すと、そうした進化が自然な流れとして共有されていた印象を受ける。
この宣言を「半導体企業の大風呂敷」として聞き流すのは簡単だ。だが経営の視点ではむしろ逆で、これは「次にAI投資が向かう先」をかなり具体的に示している。なぜなら、AIの価値がLLM(大規模言語モデル)としての“ロジカルさ”からフィジカルAI(物理AI)としての“行動の信頼性”へ移るとき、投資対象はAIモデル単体ではなく、データ・運用を含むシステム全体に変わるからだ。
フィジカルAIとは何か
ここでいうフィジカルAIとは、端的にいえば 「現実世界を理解し、計画し、行動できるAI」 だ。重要なのは、これが“ロボットにAIを載せる”話ではなく、AIが現実世界のルールに従って振る舞うための基盤(世界モデル+シミュレーション+データ生成)まで含んだ一連の技術として語られている点である。
人間には当たり前だがAIには難しい「物理世界の常識」がある。物体の永続性(視界から消えても存在する)、因果(押せば倒れる)、摩擦・重力・慣性(重いものは止まりにくい)等、要するに“賢く話す”だけのAIでは理解が難しい常識が私たちの世界には存在する。間違った行動がコストや危険に直結する現実世界で、フィジカルAIの価値は “行動→反応→評価“のなかで判断を継続できることにある。そしてこのフィジカルAIの中核・頭脳といえるものが、ロボット基盤モデル(VLA)である 。
図表1:LLMとフィジカルAIの比較
出所:KPMGジャパン
※ChatGPTはOpenAI社の登録商標です。
労働のソフトウェア化
VLAは、Vision-Language-Action(視覚・言語・行動)を束ねたモデルだ。言葉で指示し、視覚で状況を捉え、身体(アクション)で現実を動かす。ここで重要なのは技術の細部ではない。経営として重要なのは、これが単なる“ロボット導入”ではなく、労働がソフトウェア化する局面を開き得る点だ。
これまでの産業ロボットによる自動化は「作業の自動化」だった。VLAが狙うのは「行動知能そのもののソフトウェア化」だ。知的労働を拡張したChatGPT等の言語モデル(LLM)はインターネット上の大量のデータを学習し、企業などで運用され始めつつあるが、VLAもデータで学習させ、現場で運用することで身体労働を拡張していく。
つまり、企業は今後現場の生産性を“設備”だけでなく、「モデル+データ+運用」として設計する局面に入る。ここで競争軸が変わる。人材採用や技能継承だけでなく、データが資本になり、運用が差別化になる。そしてその過程において、経営は新たな制約に直面する。
現実に詰まりやすい制約
(1)データ
第1にデータだ。VLAの性能は視覚データ、行動ログ、シミュレーション、実世界フィードバックに依存する。だが物理世界のデータは、収集がコストであり、同時に事故リスクでもある。さらに、データの“質”が性能に直結する。照明、反射、荷姿のばらつき、道具の摩耗など、現場のノイズがそのまま学習の難しさになる。経営がまず決めるべきは、データを「資産」に変えるための前提条件である。
- 何を、どの粒度で、どの頻度で取るか(視覚・状態・行動・介入理由/現場ノイズも含めた観測設計)
- 誰が責任者か(現場・IT・品質・労安・法務の責任分界とオーナーシップ)
- どこまで許容し、どう守るか(権限、保管、匿名化、セキュリティ、持ち出し・委託のルール)
- どうやって“使える形”にするか(メタデータ、ラベル、品質基準、監査・再現性)
ここが曖昧だと、PoCではデータが集まっているように見えても、本番で「集め続けられない/使い続けられない」状態になり、学習ループが止まる。
(2)ロバスト性
第2にロバスト性、つまり例外処理の沼だ。現場は例外が通常運転になりがちで、イレギュラー対応が暗黙知として回っていることが多い。VLAが汎用に見えても、停止・引継ぎ・再試行・人へのエスカレーションの設計がなければ運用に耐えない。経営が決めるべきは「自動化の範囲」ではなく、失敗を前提にした運用の型である。
- 止め方(フェイルセーフ、停止権限、停止条件、作業者の安全確保)
- 戻し方(復旧手順、ロールバック、再現性、原因切分け)
- 引継ぎ方(人へのハンドオフ条件、エスカレーション経路、SLA)
- 例外を学習に戻す仕組み(介入理由の記録、レビュー、再発防止の反映)
これらを設計できない限り、PoCは動いても本番では「止められない/戻せない自動化」として現場に拒否される。
(3)統合コスト
第3に統合コストである。ロボットはモデル単体では動かず、センサー、制御、設備、安全柵、保全、手順書、教育がつながって初めて価値になる。経営が決めるべきは、投資対象を「AI」ではなく 運用を含むシステムとして捉え直し、どこに主導権と予算を置くかである。
- 統合のオーナー(OT/設備・現場・ITのどこが全体責任を持つか)
- 内製と外部の分担(ハード/制御/モデル/シミュレーション/MLOps/現場統合の握り方)
- 展開戦略(1ライン→複数ライン→複数拠点の標準化、教育と保全の体制)
- 継続投資の判断ゲート(稼働率、介入率、停止回数、復旧時間、品質、安全指標で判断)
ここを「AI予算」で扱うと、統合・保全・教育が後回しになり、導入はできても定着しない。
図表2:フィジカルAIの導入で考慮すべき要素
出所:KPMGジャパン
フィジカルAIは「ロボット導入」ではなく、「運用設計への投資」である
フィジカルAIの到来が企業経営に突きつけるのは、ロボットを導入するかどうかではない。事業の現場を、データとして観測し、それによってAIを更新し、運用して維持する会社になれるかという問いだ。そして維持するには安全・責任の運用設計が不可欠である。この運用設計を作った企業において、フィジカルAIは初めて“生産性の源泉”になる。
次のAI投資の中心はGPUでもAIモデルでもなく、“現場の学習と安全な運用”だ。そこに投資できる企業が、労働のソフトウェア化を味方に付ける。
執筆者
KPMG FAS
執行役員パートナー
田中 秀和