AIによるUX評価の研究動向 — ヒューリスティック評価・認知的ウォークスルー関連論文7選

はじめに

前回の記事「Synthetic Heuristic Evaluation論文解説」で、AIによるヒューリスティック評価の可能性を紹介した。

今回は関連する最新論文を網羅的にリサーチし、ヒューリスティック評価と認知的ウォークスルーの両方を含む研究動向をカタログ化する。

📚 論文カタログ

1. Synthetic Cognitive Walkthrough（CHI 2026）

AIによる認知的ウォークスルーの自動化

項目	内容
arXiv	2512.03568
発表	CHI 2026（2026年4月、バルセロナ）
モデル	GPT-4、Gemini-2.5-pro

概要: 認知的ウォークスルー（CW）をLLMで自動化。人間評価者と比較研究を実施。

主要な発見:

指標	GPT-4	Gemini	人間
タスク完了率	100%	97.2%	88.2%
ステップ数	7.56	7.50	10.37
失敗点検出	3件	3件	10件

重要な知見:

LLMは最適パスで効率的にナビゲート
人間は不確実な時に幅優先探索的に行動
LLMは「失敗しない」ため、潜在的な失敗点を見落とす
追加プロンプトで人間が発見した失敗点を予測可能に

AIの行動パターン:

人間: 「どれが正解かわからない...両方試してみよう」
LLM: 「Exploreが最も可能性が高い。Liveは関連性が低い」

ソロ開発者への示唆:

認知的ウォークスルーにもAIを活用可能
ただし「失敗点検出」には明示的なプロンプトが必要
タスク完了テストと失敗点予測を分離して実行

2. Synthetic Heuristic Evaluation（arXiv 2025）

AIによるヒューリスティック評価の自動化

項目	内容
arXiv	2507.02306
発表	2025年7月
モデル	GPT-4、Gemini-1.5-pro、Claude 3.5 Sonnet

概要: Nielsenの10ヒューリスティックでUIを評価。人間5人チームを上回る73-77%の問題発見率。

詳細は別記事参照: 【論文解説】Synthetic Heuristic Evaluation

3. Catching UX Flaws in Code（VL/HCC 2025）

コード段階でのユーザビリティ検出

項目	内容
arXiv	2512.04262
発表	IEEE VL/HCC 2025
モデル	GPT-4o
対象	30のオープンソースWebアプリ、850以上の評価

概要: デザイン段階ではなく開発段階（コードレベル）でヒューリスティック評価を実施。3回の独立評価で一貫性を検証。

主要な発見:

指標	結果
問題検出の一致率	84%（pairwise Cohen's Kappa: 0.50）
重大度判定の一致率	56%（Kappa: 0.63）
Krippendorff's Alpha（重大度）	≈0（低い一貫性）

重要な知見:

問題の有無の検出は一貫性あり（moderate agreement）
重大度判定は一貫性が低い → 人間の監督が必要
開発初期段階での自動チェックには有用

ソロ開発者への示唆:

CI/CDパイプラインに組み込む際の参考データ
重大度判定は自動化せず、検出のみに使う設計が妥当

4. UXAgent（CHI LBW 2025）

LLMエージェントベースのユーザビリティテストフレームワーク

項目	内容
arXiv	2502.12561 / 2504.09407
発表	CHI Late-Breaking Work 2025
対象	Webデザインのユーザビリティテスト

概要: UXリサーチャーが本番の被験者テスト前に、LLMエージェントで数千人のシミュレーションユーザーを生成してテスト設計を検証。

システム構成:

LLMエージェントモジュール: ペルソナを持つシミュレーションユーザー
ブラウザコネクタモジュール: 実際のWebサイトを操作

出力形式:

定性データ: エージェントの「思考プロセス」インタビュー
定量データ: アクション数、完了率
動画記録: 操作ログ

ユーザー評価（UXリサーチャー5名）:

✅ イノベーションを評価
⚠️ LLMエージェントがUX研究の未来に与える影響への懸念

ソロ開発者への示唆:

テスト設計の妥当性検証に使える
本番テスト前の「プレテスト」として位置づけ
複数ペルソナでの自動テストはツール化の価値あり

5. LLM-Based Usability Analysis for Recommender UI（IntRS 2025）

レコメンダーシステムUIのユーザビリティ評価

項目	内容
arXiv	2511.14359
発表	IntRS Workshop 2025（プラハ）
対象	レコメンダーシステムUI

概要: マルチモーダルLLMを使って、レコメンダーシステムのUIを自動評価。スケーラブルなヒューリスティック評価を実証。

評価対象シナリオ:

嗜好抽出（Preference Elicitation）
推薦結果表示（Recommendation Presentation）

ソロ開発者への示唆:

ドメイン特化のUI評価にもLLMが適用可能
レコメンダー以外のドメイン（SaaS、eコマース等）への応用可能性

6. SimUser（CHI 2024）

LLMによるユーザーシミュレーション

項目	内容
発表	CHI 2024
引用元	Synthetic Cognitive Walkthrough論文より

概要: LLMパワードのユーザーエージェントがインターフェースをナビゲートし、思考と理由を言語化。

主要な発見:

20回のSimUserフィードバックで、48人の人間参加者が探索した利用シナリオの70%をカバー
人間が発見したユーザビリティ問題の80%を特定

ソロ開発者への示唆:

人間48人のテスト ≈ LLM20回のシミュレーション
コスト効率の高い初期テストとして有用

7. MLLM as a UI Judge（arXiv 2025）

マルチモーダルLLMによるUI知覚予測のベンチマーク

項目	内容
arXiv	2510.08783
発表	2025年10月

概要: マルチモーダルLLMが人間のUI知覚をどこまで予測できるかをベンチマーク。

重要な知見:

「LLMはUIに関するフィードバックを生成できるが、視覚的インターフェースへの人間の反応を忠実に捉えることには苦労する」

ソロ開発者への示唆:

AIのUI評価は「人間の代替」ではなく「補助」として使う
人間の主観的知覚はまだAIで完全に再現できない

📊 論文比較表

論文	手法	タスク	精度/カバレッジ	特徴
Synthetic HE	ヒューリスティック評価	静的スクリーンショット分析	73-77%	人間5人チーム超え
Synthetic CW	認知的ウォークスルー	タスクナビゲーション	完了率100%	失敗点検出が課題
Catching UX Flaws	コード段階評価	開発中のWebアプリ	検出84%一致	重大度判定は不安定
UXAgent	ユーザーシミュレーション	Webサイトテスト	定性・定量出力	テスト設計検証用
SimUser	ユーザーシミュレーション	UIナビゲーション	シナリオ70%、問題80%	20回≈48人

🎯 ソロ開発者向けまとめ

使い分けガイド

目的	推奨手法	参照論文
デザイン段階の問題発見	ヒューリスティック評価	Synthetic HE
タスクフロー検証	認知的ウォークスルー	Synthetic CW
開発段階の早期検出	コードレベル評価	Catching UX Flaws
テスト設計の妥当性確認	ユーザーシミュレーション	UXAgent, SimUser

共通の注意点

AIは「最適解」を見つけてしまう
- 人間が迷う場所を見落とす傾向
- 「失敗点検出」は別途プロンプト設計が必要
重大度判定は不安定
- 問題の「有無」は一貫性あり
- 「深刻度」の判定は人間が確認
補助ツールとして使う
- 人間の代替ではなく、スケールアップのためのツール
- 最終判断は人間が行う

まとめ

2024-2025年のAI×UX評価研究は急速に進展している。特に:

ヒューリスティック評価: 人間チームを上回る問題発見率を達成
認知的ウォークスルー: タスク完了率は高いが、失敗点検出には工夫が必要
開発段階での検出: CI/CD統合の基盤研究が進行中

ソロ開発者にとっては、これらの研究を参考に自分のワークフローに合った活用法を選ぶことが重要。

はじめに

📚 論文カタログ

1. Synthetic Cognitive Walkthrough（CHI 2026）

2. Synthetic Heuristic Evaluation（arXiv 2025）

3. Catching UX Flaws in Code（VL/HCC 2025）

4. UXAgent（CHI LBW 2025）

5. LLM-Based Usability Analysis for Recommender UI（IntRS 2025）

6. SimUser（CHI 2024）

7. MLLM as a UI Judge（arXiv 2025）

📊 論文比較表

🎯 ソロ開発者向けまとめ

使い分けガイド

共通の注意点

まとめ

参考リンク