チャットUIへの違和感

LINEやSlackといったコミュニケーションツール、さらにはAIツール(ChatGPTやClaude)といい、我々は、自然にチャットUIに馴染んできています。
ただ、人でもAIでも何かを依頼、つまりタスクをお願いする手段として、このチャットUIで本当に良いかという点においては、ずっと違和感を持っていました。
そんな時に、社内の勉強会で後輩がオブジェクト指向UI(OOUI)について発表しているのを聞いて、より解像度を上げてみようと思い、色々調べてみたので、その結果をここに共有していこうかと思います。 考えながら書いているので、粗いところもあるので、ご了承を。
その前に、OOUIとは何なのか
オブジェクト指向UI(Object-Oriented User Interface)は、ユーザーが操作する「オブジェクト(名詞)」を起点に設計されたUIのことです。
メールアプリが分かりやすい例で、
-
まず一覧からメールを選ぶ(名詞)
-
そのあと「返信」「削除」を選ぶ(動詞)
対象を先に決めて、操作を後から選ぶ。この「名詞 → 動詞」の順序こそがOOUIの骨格です。
対になるのがタスク指向UI。ATMがよく例に出されますね。
-
まず「入金する/出金する」を選ぶ(動詞)
-
そのあと金額や口座を指定する(名詞)
「動詞 → 名詞」の順序で進むUIです。
世の中にある、大抵のUIは、このOOUIとタスク指向UIのどちらかに捉えることができ、 そして、良い/悪いではなく、実現したい目的によって使い分けろってのがよく言われる話かなと思います。
チャットUIでタスクを頼む
さて本題に戻りますが、チャットUIはすごく便利なんだけど、人と話す時より情報量が極端に少なくなるので、相手の環境や脳内を想像しながら、全てを言語化してテキストにしないと、上手く伝わりません。そのため、伝えるには、その言語化を抜けなく誤解のないようにするわけですが、それが、まあまあ負担ですし、純粋に辛い作業です…
例えば、 「この画像のこの部分だけ直したい」「このコードのこの関数だけ書き直したい」と思っても、チャットで依頼(AIにお願いの例であるが…)の場合は、
「上から3つ目の画像の、右下にある赤いボタンの色を、青に変えて」
みたいに、どの対象に・何をするのかを全部文章で説明しないといけない。 頭の中では「これ」と指差せているのに、言葉に翻訳するコストがずっとかかっている感覚でした。 (人と会話でも言語化する必要はあるが、ある程度メンタルモデルが形成されているのと、会話を経て最終的に共通認識になれば良いので、やはり負荷は少ない(人が多い)。)
この違和感の正体が何なのか、ずっと言語化できずにいたのですが、OOUIを勉強して少し輪郭が見えてきた感じがしています。
OOUIとタスク指向UIを見比べてみると、実は共通している前提があります。
-
OOUI:メール(名詞のリスト)を選ぶ → 「返信」ボタン(動詞)を押す
-
タスク指向UI:「入金する」(動詞のボタン)を押す → 金額(名詞)を入力する
どちらも、名詞と動詞は画面上で別々のUI要素として存在している。 違うのは「どちらを先に触るか」という順序だけで、「名詞と動詞が分離されている」という点は同じ。
一方、チャットUIはどうか。
「上から3つ目の画像の、右下にある赤いボタンの色を、青に変えて」
この一文の中に、名詞(画像、ボタン、色)も動詞(変える)も全部溶け込んでいる。UI要素としては「テキスト入力欄」ひとつしかなくて、ユーザーは自分の頭の中で名詞と動詞を組み立てて、それを自然言語という一本の紐に束ねて投げている。(話す時と同じように)
つまりチャットUIは、OOUIでもタスク指向UIでもないと思う。 「名詞と動詞が分離されていないUI」という、そもそも別の軸にいるものだと思いました。(そりゃそうだ!笑)
| 名詞と動詞の関係 | 順序 | |
|---|---|---|
| OOUI | 分離されている | 名詞 → 動詞 |
| タスク指向UI | 分離されている | 動詞 → 名詞 |
| チャットUI | 融合している | (順序という概念がない) |
ここで一つ補足しておくと、「融合している」こと自体は欠点ではありません。むしろチャットUIの強さの源でもあります。対象が曖昧なまま投げられる、対話で絞り込める、文脈を持ち越せる──これらは融合しているからこそ成立する体験です。
問題は、対象と操作が自分の中で明確に決まっているときにも、毎回それを言語に解きほぐして一本の紐に束ね直さなければいけないこと。融合しているUIに、分離した依頼を流し込むときの摩擦。違和感の正体はそこにあったのだと思います。
OOUI vs タスク指向UIは「分離された上での順序の違い」で、 チャットUI vs その他は「そもそも分離しているかどうか」。議論の階層が一段違う。
私がずっと抱えていた違和感は、「OOUIじゃないから」ではなく、もっと根っこの「名詞と動詞が分離されていないから」だったんだと気づきました。
そして、その気づきをより深めてくれたのは、
-
MCP(Anthropic):AIモデルに外部のデータやツールを接続するためのオープン規格。**Resources(名詞=参照用データ)/Tools(動詞=実行するアクション)/Prompts(再利用テンプレート)**の3つのプリミティブで構成される。
-
A2UI(Google、2025年12月):AIがUIを宣言的に記述するためのオープン規格。クライアントが持つ事前承認済みコンポーネント(名詞)のカタログから、AIが選んで組み立てをJSONで指示し、クライアント側がネイティブ描画する。コンポーネントへのイベントハンドラ(動詞)も分離して定義される。
-
MCP Apps(Anthropic + OpenAI + MCP-UI、2026年1月):MCPにUI描画機能を追加した公式拡張(SEP-1865)。UIリソース(名詞=HTML/JSのテンプレート)とツール呼び出し(動詞=アクション)を分離し、ホストがサンドボックスiframeで描画する。
これら、全部「オブジェクト(名詞)とアクション(動詞)を分離して定義する」という骨格なんですよね。
面白いのは、これらの規格はまず名詞と動詞を分離するところから始めていて、その上でOOUI的な「名詞を選んで、動詞を適用する」操作モデルを乗せている、という二段構えになっていることです。チャットUIで融合していた名詞と動詞を、引き剥がしにかかっている。 (というか、チャットUI自体が、自然な流れであるが)
チャットへの違和感は、研究でも裏付けられていた
チャットUIにおける、タスク依頼という点で見てみると、実際に検証した研究があります。
CHI 2024(UI・UX分野のトップ会議)で発表された DirectGPT という研究です。この研究は、まさに私が感じていた問題を扱っていました。ChatGPTのようなチャットUIは、「どの対象に」「何をするか」を毎回文章で指示する必要がある。ここに着目して、LLMとのやりとりに「直接操作(Direct Manipulation)」の原則を適用したらどうなるかを検証しています。
画面上のテキストや画像をオブジェクトとして選択し、それに対してアクションを適用するUI(DirectGPT)を作り、従来のChatGPTと比較した、というものです。
結果は、次の通りでした。
-
タスク完了時間が 50%速い
-
必要なプロンプト数が 50%少ない
-
プロンプトの長さが 72%短い
著者たちの考察で、特に印象に残った一文があります。
Direct manipulation disentangles nouns from verbs, so the interface is immediately aware of the objects that are to be edited.
(直接操作は名詞と動詞を分離する。だからインターフェースは、編集対象のオブジェクトを即座に認識できる)
重要なのは「分離する(disentangle)」という言葉。OOUIの「名詞 → 動詞」は、この分離を順序として表現した一つの形であって、本質は順序より分離のほうにあるんですね。
名詞は「認知のアンカー」である
なぜ名詞を起点にした設計が、こんなにも人間にもAIにも効くのか。根っこの話をすると、認知科学にも裏付けがあるようです。
Earles & Kersten(2017) の研究では、「なぜ動詞は名詞より覚えにくいのか」を3つの実験で検証し、非対称的な結論を得ています。
-
名詞を変えると、動詞の認識が下がる(動詞の記憶は名詞に依存している)
-
動詞を変えても、名詞の認識はあまり変わらない(名詞の記憶は自立している)
つまり、名詞は認知的に安定したアンカーとして機能し、動詞は文脈依存的、ということですね。 これは心理学者Dedre Gentnerの「自然分割仮説(Natural Partitions Hypothesis)」を裏付ける結果とされています。
人間は世界をまず「物(名詞)」として切り分け、そこに「動作(動詞)」を関連づける
日常を振り返ってみても、コップを見てから持ち上げ、食材を手に取ってから切る。対象を認識してから動作に移るのが自然な順序だし、そもそも脳がそう動いている。
OOUIが自然に感じられるのは、UI業界の流儀ではなくて、人間の脳の構造レベルでそうなっているからなんですね。
設計者の役割は「画面を作る」から「モデルを定義する」へ
すごく整理されたのか、よく分からなくなってきたが、ここまでの話を、作り手の視点でまとめ直してみます。
従来、メンタルモデルを意識すべきなのはユーザーと開発者の2者でした。でも今は、そこにAIという第3の主体が入っています。
ユーザー・AI・開発者。 この3者のメンタルモデルを一致させる共通基盤。それこそがドメインモデルなのだと思います。
作り手の仕事は、画面を作ることから、ドメインモデルを解像度高く定義することへと、重心が移りつつある気がしています。
これはデザイナーだけの話ではなくて、
-
デザイナーは、オブジェクトとアクションの構造を画面に落とす
-
エンジニアは、同じ構造をコードとAPIとして実装する
-
PMは、何がオブジェクトで何がアクションかを、チーム全体の共通言語として整える
3者が同じドメインモデルを見て議論できること。 これがAI時代のプロダクト開発の前提条件になっていくんじゃないか、と今思います。
逆に言えば、ドメインモデルが曖昧なままだと、UIもAPIもAIエージェントへの公開仕様も、全部曖昧になってしまう。これは従来も真でしたが、AIが加わったことで、その影響が可視化・増幅されるようになっただけなのだと思います。
おわりに
ChatGPTに感じていた小さな違和感から始まった調べ物でしたが、とても勉強になりました。
-
人間が自然に理解できる構造は、AIも自然に扱える構造だった
-
認知科学の研究が示すように、名詞は認知のアンカーとして安定している
-
だからそれを起点にしたUIは、人間にとって自然。同じ構造はLLMにとっても扱いやすい
-
DirectGPTの実験が示す通り、50%速く、72%短いプロンプトで済むほどに
私がチャットでタスクを投げるときに感じていた違和感は、「名詞と動詞が文章の中に溶け合ってしまっている」ことへの違和感だったのだと思います。そしてその違和感は、きっとこれからのAIプロダクトが解いていく課題でもあるのだと思います。
これからは画面を作る前に、このアプリは何を扱っているのか、どんなオブジェクトがあって、どんなアクションができるのか。もう一段丁寧に言語化していきたいと思いました。
それが、ユーザーにも、AIにも、そして未来の自分自身にも優しい仕事につながる気がしています。
参考文献
-
Masson, D., Malacria, S., Casiez, G., & Vogel, D. (2024). DirectGPT: A Direct Manipulation Interface to Interact with Large Language Models. CHI 2024. DOI: 10.1145/3613904.3642462
-
Earles, J. L., & Kersten, A. T. (2017). Why Are Verbs So Hard to Remember? Effects of Semantic Context on Memory for Verbs and Nouns. Cognitive Science, 41(S4).