５つ星評価は評価尺度として優れているのか？

本記事はMeasuringU社より許可を得て翻訳したものです。
元記事：”ARE STAR RATINGS BETTER THAN NUMBERED SCALES?”, JULY 21, 2020
著者：Jim Lewis, PhD and Jeff Sauro, PhD

アンケート作成時に重要なのは、評価尺度を適切に設定することです。

リサーチャーは評価尺度を使い、回答者の意見や行動を量的に測定します。しかし、評価尺度そのものが間違っていれば、収集した情報にバイアスがかかりアンケート結果に深刻な影響を及ぼしてしまうでしょう。

本稿では、近年どのサイトでもよく見かける「5つ星評価」を、評価尺度としての適切さの観点から分析したMeasuringU社のブログ記事”ARE STAR RATINGS BETTER THAN NUMBERED SCALES?”をご紹介します。

（出典）MeasuringU社

Amazonで商品を選ぶとき、Yelpでレストランを検索するとき、AppストアやGoogle Playストアでモバイルアプリを選ぶとき、よく目にするのは「5つ星による評価」です。

現在、この「5つ星による評価」は、製品やサービスに対する評価をいつでもどこでも簡単に得られるツールとして広く認知されています。

しかし、星による評価尺度は、１～５のように数字を選択する評価尺度と比較した場合、優れた評価尺度といえるのでしょうか？

評価尺度の設定は測定のクオリティを左右します。
ある研究結果によると、回答の選択肢が3つしかない場合、回答者の考えや気持ちを正確に把握することは困難とされています。

一方で、UXリサーチ（UX:ユーザーエクスペリエンス）においては、評価尺度の違いによって、回答結果に統計的に有意な違いがみられないという場合も見られます。

近年実施した研究では、スライド式ポインターで0～100点をつける評価方法と、一般的な5段階評価を比較しました。
その結果、ふたつの評価方法の評価尺度は大きく異なるにもかかわらず、5段階評価を100点満点評価に読み替えたところ、平均値の差はわずか0.6ポイントでした。

では「5つ星による評価」と「数字による5段階評価」では違いはあるのでしょうか？
本稿では、「数字による5段階評価」とAmazonの評価のような「5つ星による評価」を比較した研究結果をご紹介します。

なお、研究では、米国のパネル調査企業からサンプリングした335人の参加者を対象としています。
期間は、2020年5月～6月の2か月、評価対象は、Netflix、HBO Now、Amazon Prime Video、Hulu、Disney+などのストリーミングサービスを使用しました（詳細な調査内容についてはブログ記事・レポート（英語ページ）をご覧ください）。

【無料ダウンロード】ユーザビリティテストの基本

数あるUXリサーチ手法の中でも最初に始めやすい「ユーザビリティテスト」の「基本的な設計・実査・分析の流れ」と「実施の進め方や注意点」を解説します。

ユーザビリティテストの基本を見てみる＞＞

1 星による評価とはなにか？
2 数字による評価 vs 星による評価
3 UXリサーチでは「数字による評価」を利用することが好ましい

星による評価とはなにか？

図1と図2は、「数字による評価」と「５つ星による評価」の例です。
この例では、回答者は、5つの選択肢から回答を選びます。

図1：数字による評価の例（UMUX-Lite調査における例）（出典）MeasuringU社

図2：星による評価の例（UMUX-Lite調査における例）（出典）MeasuringU社

星による評価は、１～５のように数字の記載がある場合とない場合があります。

また、例えば、Amazonや映画の評価サイトのように、使用されている状況（コンテキスト）が明確な場合は、「この製品に対する満足度を評価してください。」というような設問が省略されている場合もあります。
そして、一般的に、星の数が多い評価ほど、よりポジティブな感情や態度を表しています。

ユーザーが興味をもつと思われる情報、つまり「おすすめ」を提示するレコメンドシステムでの星による評価については、いくつか先行研究があります。
しかし、私たちが知る限りでは、標準的な5段階評価のような「数字による評価」との比較は研究されていませんでした。

数字による評価 vs 星による評価

この研究の目的は、評価形式の違いがユーザーエクスペリエンス（UX）の計測にどのような影響を与えるかを明らかにすることです。

そのため、星と数字の箇所以外は同じデザインにした上で、さまざまなストリーミングサービスの満足度評価（UMUX-Lite）を調査しました。

なお、この研究で考慮したポイントは、以下の3つです。

1.評価形式
・「数字による評価」か「星による評価」か（図1，2参照）

2.評価をする状況（コンテキスト）
・「サービスを利用した直近の経験の評価」か「サービスを利用した総合的な経験の評価」か

3.提示の順番
・「数字による評価」と「星による評価」のどちらが先か
・「直近の経験の評価」と「総合的な経験の評価」のどちらが先か

回答者には、上記3つのポイント（評価形式、評価をする状況、提示の順番）を考慮した4つのパターンのうちひとつを無作為に割り当て、回答してもらいました。

その結果、「5つ星による評価」と「数字による5段階評価」では、平均1.3ポイントの統計学的有意差があることがわかりました（5段階評価を100点満点評価として計算）。

また、提示の順番の効果についても、小さいながらも統計的に有意な差が見られました。

図3に示したように、数字による評価点数は、「数字による5段階評価」を先に提示した場合と後に提示した場合とで、わずか1.5ポイントの差しかありませんでした。一方、5つ星による評価点数は、「５つ星による5段階評価」を先に提示した場合と後に提示した場合とで約4.5ポイントという大きな差が生じました。

図3：提示の順序（「数字による評価」と「星による評価」のどちらが先か）および評価形式（「数字による評価」か「星による評価」か）（出典）MeasuringU社
※Numericは「数字による評価」、Starsは「星による評価」を表しています。

この結果からわかることは、数字による5段階評価は5つ星評価よりも安定しており、提示の順番による影響を受けないということです。

ただし、数字による評価と星による評価が混在するケースはほ実際にはほぼないため、5つ星評価という手法自体に課題があるとまでは言い切れません。

また、図4は、提示する順番などの要素を考慮せず「数字による評価」と「星による評価」の平均値を比較した結果を示しています。

平均値の差は1.3で、統計的には有意な差となりました。
「数字による評価」と「星による評価」の平均値のどちらが「正しい」かを判断する基準はありませんが、比較的小さいとはいえ差があるという結果となりました。

なお、計測された差の95%信頼区間は-2.6～0.1ポイントでした。これは、「差がない（＝0）」可能性を含みつつ、最大2.6ポイントの差が生じる可能性があることを示唆する結果です。

図4：「数字による評価」と「星による評価」の平均値の違い（出典）MeasuringU社
※Numericは「数字による評価」、Starsは「星による評価」を表しています。

【無料ダウンロード】ユーザビリティテストの基本

ユーザビリティテストの基本を見てみる＞＞

UXリサーチでは「数字による評価」を利用することが好ましい

今回の研究では、「数字による5段階評価」と「5つ星による評価」を用いて満足度を測定した場合、平均評価に差があることがわかりました。

平均評価の差1.3ポイントは、今回利用した満足度の尺度（0～100ポイント）を考えると、小さい数値ではあるものの、統計的には有意な差となりました。

また、「数字による5段階評価」と「5つ星による評価」のどちら先に回答してもらうか、という提示の順序を変えた調査では、「5つ星による評価」については、後に提示された場合は、平均値が高くなり、先に提示された場合には平均値は低くなるという結果となりました。これは、「5つ星による評価」の潜在的な問題だといえるでしょう。

これらをまとめると、今回の調査からわかったことは、以下の2つです。

1.UXリサーチでは「5つ星による評価」と「数字による5段階評価」の混在は避ける
2.UXリサーチでは「数字による5段階評価」の利用が望ましい（星で評価するメリットは特にない）

無料DL｜ユーザビリティテストの基本