1. IRTとは?
IRTとはItem Response Theoryの略です。日本語では、項目反応理論や項目応答理論と訳される。IRTはテストを作成、実施、評価、運営を行なうための数理モデルです。従来、テストの作成、実施、評価、運営には、古典的テスト理論が利用されてきました。この古典的テスト理論を用いたテストでは、被験者の解答は一般的に0から100点の素点で採点されます。また、テストの分析には、平均点、偏差値などが利用されています。この古典的テスト理論に対し、IRTは現代テスト理論と呼ばれています。実際に、アメリカやヨーロッパにおいて一般的なテストとなっているコンピュータ版テスト(Computer Based Testing, CBT)、特に第2世代であるコンピュータ適応型テスト (Computer Adaptive Test, CAT)にはIRTが利用されています。ゆえに、欧米では、一般的なテスト理論となっています。以下では、主にアメリカで実施されているIRTを利用したテストを示す。
アメリカを中心に実施されているIRTを利用したテストの例 ・Graduate Record Examinations (GRE:大学院受験用の学力試験) ・Graduate Management Admission Test (GMAT:ビジネススクール入学試験) ・Diplomate of National Board of Medical Examiners (NBME:医師資格試験) ・Commission on Graduates of Foreign Nursing Schools (CGFNS:看護師資格試験) ・Multistate Pharmacy Jurisprudence Examination (MPJE:薬剤師法律学試験) ・North America Pharmacist Licensure Examination (NAPLEX:北アメリカ薬局開業試験) ・Architect Registration Examination (ARE:建設法規検査官試験) ・Armed Services Vocational Aptitude Battery (ASVAB:国防省式職業適性検査) ・TOEFL (Test Of English as a Foreign Language) etc
また、日本でもIRTを利用したテストが実施されています。特に、就職試験のSPI2などには注目が集まっています。
日本で実施されているIRTを利用したテストの例 ・情報処理技術者試験 ・TOEFL ・TOEIC ・医療系試験 ・SPI2など
IRTの利点(古典的テスト理論と比較して)
IRTは古典的テスト理論と比較すると以下の点で優れています。
・複数のテスト間の結果の比較が容易であること 異質な受験者が、異なる日時・場所で異なる問題のテストを受験したとしても、IRTでは、受験者の能力が統一された処遇を受け比較可能となります。
図1-1 同一尺度で結果を示せる
・測定精度をきめ細かく確認できること IRTでは、テスト情報関数を利用することにより、テストの測定精度を尺度のレベルごとに示すことができます。ゆえに、テストがある尺度レベルにおいてどの程度の測定精度を保持しているかを把握することが可能になります。
・平均点をテスト実施直前に制御できること 大学センター試験問題の物理や生物のように平均点をコントロールする必要が生じる場合がありあます。IRTを利用することにより項目困難度を知ることが可能となるので、大学センター試験の物理や生物のような科目の平均点をコントロールすることができます。
図1-2 平均点の調整
・受験者ごとに最適な問題を瞬時に選び、その場で出題できること 受験者の集中力には限界があり、問題数や解答時間には制限が必要です。そこで、正解できるに決まっている易しすぎる問題や到底解くことができない難しすぎる問題を出題することは無意味となります。テストをIRTを利用したCAT化することで、受験者の解答パターンを分析しながら、リアルタイムで次に解くべき問題を選び出し、出題することが可能です。よって、それぞれの受験者の能力にあった問題を出題することが可能となるので、個人ごとに問題や解答時間が異なります。また、問題が被験者ごとに異なることによりカンニングなどの不正行為もなくすことができます。
図1-3 一般のテストとCATのイメージ
IRTに必要な基礎知識 IRTは、項目反応に基づき、項目の難しさや被験者の能力を推定する。IRTでは、被験者、項目、項目反応を以下のように表せます。 ・ 被験者 ⇒ i(=1,2,…,I) ・ 項目 ⇒ j(=1,2,…,J) ・ 項目に対する誤答 ⇒ 0 ・ 項目に対する正答 ⇒ 1 ・ 被験者iの項目jへの反応 ⇒ 例:2番目の被験者の3番目の項目への反応(表1-1の場合、) 被験者iの項目1〜Jまでへの反応 ⇒ ※: は行列を表しています 例: ・ 被験者1〜Iの項目1〜Jへの項目反応 ⇒
例: ・ 項目の難しさ ⇒ 項目困難度(母数):Difficulty(parameter) → で表現 ←項目母数 ・ 正答者と誤答者を識別する ⇒ 識別力(母数): Discrimination (parameter) → で表現 ←項目母数 ・ まぐれで当たる ⇒ 当て推量(母数) : Guessing(parameter)→ で表現 ←項目母数 ・ 被験者iの能力 ⇒ 潜在特性値(能力母数):Latent trait→ で表現 ←被験者母数
2〜4では、正答と誤答の2値(binary)反応データの母数を推定できる1、2、3母数IRTモデルについて説明していきます。
※IRTは テストの分析だけではなく、アンケートなどの分析にも利用できます。2値反応データの場合、そう思わないを0、そう思うを1と設定したりできます。 |