質的研究論文の評価



 質的アプローチは、量的アプローチとは研究の枠組み、目的、手続き等が異なるため、研究論文の評価の基準も別に考えなければなりません。質的研究論文の評価基準については、研究者の間で様々な見解が提案されています。ここでは、質的研究法について多くのすぐれた著書のある英国Open Universityの教育社会研究学科教授マーティン・ハマスリーの最近の見解を基にして説明します[Hammersley, M. (1998). Reading ethnographic research (2nd ed.). London: Longman]。彼は、まず、質的研究論文の備えるべき基本的な構成について論じ、その後で、評価基準として「妥当性」と「関連性」の2つの柱を提案しています。

質的研究論文の構成

すでに「入門編 ステップ6」で触れましたように,質的研究の論文は,少なくとも評価に値するためには,順序やスタイルはどうあれ,以下のような記述を含めるべきであると考えられています.

1. 研究課題およびそれを取り上げる理由
 当該研究の主要な関心や目的がどこにあるかを明確にする。そして、さらに具体化して、どのような研究課題(research questions)を探究しようとしているのかを論じる。
 研究課題については、なぜそれが重要なのかを先行研究の検討を通して論じなければならない。

2. 研究事例
 データ収集がおこなわれた特定の研究事例(サンプル)を指す。
・研究事例がどのようなものなのかを描写する。
・なぜその事例を選出したのかを説明する。
・その事例が研究課題の探究にどのように役立つのか論じる。

3. データ収集と分析の方法
・データ収集の手段
・研究者の役割
・データ分析手段

4. 中心的主張とその裏付け
研究事例に関する結論(主張)のうちの中心となる事柄を論じ、データで裏付ける
・研究事例について、中心的主張を述べる。
・その主張を裏付けるデータを提供する。

主張の種類(Hammersley, 1998)
・定義(Definition)
 現象を捉える枠組みについて提案すること。定義自体が中心的な主張となることはあまりないです。しかし、社会科学で扱う現象や概念は捉えにくいことが多く、定義自体が重要な論議になる場合があります。
・描写(Description)
 ある現象の特徴を記述すること。質的研究では、もっとも大きい部分をなします。
・説明(Explanation)
 特定の現象がどのような理由、原因、経緯によって生み出されたのかを明らかにすること。

5. 研究課題に関する結論
ここでの結論は、研究課題に対する答えを指します。データ収集が行われた特定の事例を越えて一般的な主張を行います。一般化するための方法としては、Hammersley (1998)には2種類あげられています:
・理論的推論(Theoretical inference)
 調べた事例をもとに、新しい理論の構築や既にある理論の精緻化や修正を提案するものです。
・経験的一般化(Empirical generalization)
 調べた事例に関する結果を、同様のタイプの事例一般に適用することを提案するものです。「同様のタイプ」が、どういう特徴を持つものであるかを議論する必要があります。

質的研究を評価する基準

上述のような要素を備えた論文に対して,評価をする観点としては,大きく分けて,妥当性と関連性があります.前者については,多くの議論がありますが,Hammersley (1998)にしたがって,(1) もっともらしさ、真実味(Plausibility),(2) 信憑性(Credibility),(3) 証拠(Evidence)の3つに分けて評価を議論します.

妥当性

I. 中心的および付随的主張の評価

1.妥当性の基準について

(1) もっともらしさ、真実味(Plausibility)
 すでに研究者コミュニティにおいて共有されている知識に照らして、もっともらしいかどうかをチェックします。
 評価というのは、評価者の属する研究者コミュニティの知識を背景にして行われるものであり、それらに依存しない「絶対的」な評価などは不可能でありかつ研究者コミュニティにとって有用でもないでしょう。
 論文の主張について、その内容を読んだだけで研究者の多くが「本当らしい」と判断しそうな場合(研究者たちが、"beyond reasonable doubt"と判断する場合)、特に納得させる努力は必要なく、以下の妥当性の項目(2)(3)は、チェック不要になります。ただ、その場合は、研究者コミュニティにおいてほとんど常識的事柄である可能性が高く、下記の「関連性」基準では、貢献度の低い研究と判断されるでしょう。その種の論文の場合は、アブストラクトだけ、あるいは論文の序文と結論だけを読めばすむと判断されるものです。
 以下の項目(2)(3)は、論文の主張を読んだだけでは研究者の多くが「本当だろうか?」「それは意外だ」と判断を保留したり、あるいは「それはありそうにない」と否定しそうな場合(すなわち、研究者たちが、"It's problematic", "That's debatable"と判断する場合)に、主張をどれだけ補強できるかをチェックするものです。論文の説得力がそこで問われることになります。

(2) 信憑性(Credibility)
 研究者の判断に誤りがないかどうかをチェックします。
・データを信頼できるか
 フィールド観察をしたのか、情報提供者は信頼できる者か、トライアンギュレーション(後述)をしているか、等々。
・研究者は、フィールドでどんな役割を演じていたか
 研究者の存在によってフィールドの人々が通常とは違った行動を演じたということはないか、研究者は、情報提供者から信頼を受けていたか、等々。

(3) 証拠(Evidence)
 裏付けに用いられている証拠の妥当性をチェックします。

2.主張が定義の場合の評価

キーとなる概念や用語について
・意味が研究目的に照らして十分に明瞭か
 [内包的側面]他の概念や用語との関連が明確か
 [外包的側面]どういう事柄が事例になるのか明確に判断できるか
・研究目的に照らして重要と思われる区別がなされているか
 異なる事柄として扱われるべきものが一緒にされていないか

3.主張が描写の場合の評価

(1)証拠となるデータの妥当性

 研究者コミュニティで共有されている知識から考えて主張の真実味に問題があるとき、データの妥当性のチェックが必要となります。
 ただし、すべてにわたって妥当性を確立することなどはどんな研究でもできません。質的研究の主張は、通常、複数のデータや複数の理論的推論をつきあわせ、それぞれの強弱を考慮した上で、導き出されるものです。例えばデータの一部に問題があったからといって、単純に研究の主張を否定するようなことはできないし、否定すべきでもありません。評価において肝心なことは、研究の中心的主張に影響を及ぼすような重大な問題点があるかどうかを見極めることです。

A. 観察記録の妥当性のチェックポイント
(a)反応性(reactivity)
・研究手続きに対する反応性
 被観察者が、自分たちが研究されていることを意識して、通常とは異なった反応をする場合があることが知られています。例えば、授業観察などで初めての教室に入ったとき、生徒たちは緊張して、普段とは違った振る舞いをするでしょう。特に、ビデオカメラやテープレコーダなどを使う場合などは、被観察者が最初のうちはそれらを意識して、普段よりかなり慎重な行動をするものです。
・観察者の社会的特徴に対する反応性
 観察者の年齢、性別、地位、職業が、被観察者の行動に影響を与えることがあります。例えば、被観察者との年齢差が小さい場合と大きい場合で、被観察者とのつきあい方が異なったりするかもしれません。また、女子校の授業の観察を女性研究者が行う場合と男性研究者が行う場合とか、中学校の生徒をその中学の教師が観察する場合と外部の大学関係者が観察する場合などではそれぞれ、生徒の行動に微妙な違いがでてくるかもしれません。
[妥当性を高める方法]
・当事者の普段の活動の様子を研究したいのに、普段とは違った振る舞いをしているデータを収集してもあまり役立たないでしょう。この問題に対処するには、質的研究では、当事者たちから信頼を得るようにします。例えば、観察の目的やデータの扱いにおけるプライバシーの保護についてきちんと予め説明し、観察データをもとに誰かに自分たちのことを密告したりする「スパイ」ではないことを知ってもらうことは重要です。
・質的研究の観察では、比較的長期間にわたって行います。誰でも、長期間にわたって普段と違う行動をとり続けることは難しいので、長期間にわたって観察をしていると普段に近い様子をとらえることができます。
・観察者の社会的特徴が特に重要な場合は、異なる社会的特徴をもつ複数の観察者でチームを組んで研究を進めるのもよいでしょう。

(b)現象そのものの性質に関わる観察の誤りやすさ
 観察者独自の推測がかなり入り込むような観察の場合に、誤りが起きやすいです。例えば、直接に観察ができない現象や、観察者の理解を超える専門的な知識が必要とされる現象の観察には、思い違いが起こりやすいでしょう。
[妥当性を高める方法]
・観察者の判断の基準を明確にする。
・当事者ないし第3者に観察者の観察記録の妥当性について判断を仰ぐ。

(c)観察手続きからくる誤り
 記録ミス、記録の偏り、観察者の記憶違い、観察者の先入観や傾向
[妥当性を高める方法]
・観察記録を観察の直後につけるようにして、忘却や記憶違いを減らす。
・オーディオ、ビデオ機器で記録を補助する。
・複数のメンバーからなる観察チームを作り、お互いの観察記録を随時つきあわせてチェックしながら研究を進める。

B. インタビュー記録の妥当性のチェックポイント
(a)情報提供者(インフォーマント)の存在や行動による反応性
(b)現象そのものの性質に関わる情報提供者の観察の誤りやすさ
(c)情報提供者の観察手続きからくる誤り
 情報提供者が、直接自分で見たことを話しているのか、それとも誰か他の人から伝え聞いたことなのか。
(d)情報提供者が、どういう状況でどういう目的で情報を研究者に提供しているのか。
 質的研究の分析結果を研究対象であった当事者たちに実際に読んでもらって、分析の妥当性についてチェックもらう場合があります。これは、妥当性のチェックにおいて有用な手法の一つですが、本人たちから分析の正しさについてポジティブな反応を得ても、絶対的な妥当性が確立するわけではありません。やはり情報提供者一般に対するのと同様の妥当性チェックの対象となります。研究論文における記述がどのような位置づけでなされているのかを、当事者たちがどれだけ理解して反応しているのか。当事者がどれだけ、データが採られた状況を正確に記憶しているか。当事者にとって不都合、不快と思われることを当事者がどれだけ認める用意があるか。当事者にとって都合のよい、気分の良い事柄を当事者がどれだけ冷静に判断しているか。

C. 参照文献の妥当性のチェックポイント
 既に出版されている研究論文、新聞記事、ノンフィクションなどを中心的ないし付随的主張を裏付ける証拠の一部として引用する場合がよくあります。そのときは、引用されている文献について、妥当性が問われます。さらに、著者による引用の仕方の適切さや引用の正確さもチェックの対象となります。

D. トライアンギュレーション(triangulation)
 データ収集において複数の種類の手続きを併用ことがあります。例えば、教育研究でいえば、授業観察、教師や生徒へのインタビュー、質問紙調査、ワークシートやテスト答案などの文書類収集を一つの研究ですべて行うことがあります。このような場合、異なった種類の手続きで得られたデータを、互いにつきあわせて、分析を進めます。この分析過程は、三角測量(triangulation)で位置を決定する手続きにたとえて、トライアンギュレーションと呼ばれています。これは、それぞれの種類のデータについて評価する過程も含んでいます。
 異なる種類のデータは、それらがどれも同一の結果を導くとは限りません。トライアンギュレーションでは、互いに異なる結果が見いだされることもあります。そういうとき、どの種類のデータがどのような側面についてより妥当性が高いのかを検討することになります。
 トライアンギュレーションは,ジャーナリズムでいえば「裏を取る」という手続きに相当するでしょう.2006年の初めに,当時国会議員のN氏が,某企業の元社長が与党の議員T氏の家族に金銭を送金するようメールで指示したと国会で追及して,大きな問題(通称,「メール問題」)が起こったことを記憶しているかと思います.この件でもっとも重要なデータである当のメールの信憑性については,N氏はそれを提供した某ジャーナリストを信じきっていて,独自の裏づけ調査をしていなかったということで,大きく批判され,自分の議員生命を危うくしてしまいました.重大な結論をするような場合は,特定の情報提供者に頼りきるのでなく,必ずそれとは独立のルートで情報内容をチェックするということが,質的研究でも不可欠です.

(2)証拠と主張の間の関係

 提出されたデータそのものが妥当なものであっても、それらが論文の主張を支える証拠として十分なものか、あるいは適切なものであるかは、別の検討を要します。研究者が特定の思想や枠組みに固執しているとき、自説を支えるような解釈しか思いつかず、自説にあわない解釈まで思い及ばない場合があります。こういうとき、他の人が、同一のデータについて当該研究者の主張と矛盾あるいは対立するような解釈を容易に考えられる場合があります。すると、データは研究者の当該の主張を支える証拠としては説得力に欠けると評価されるでしょう。
 それゆえ、自分の主張の妥当性を高めるためには、その主張と対立するような他の解釈にどんなものがあるかを検討する柔軟性が必要です。そして、それら他の解釈の仕方を退けるための議論や他の証拠も論文の中で示すことが大切になります。

4.主張が説明の場合の評価

(1)用いられている理論的前提が妥当なものか?

 数学が定理を証明するときに公理系や条件を前提として必要なように、現象についての説明でも、つねに何らかの理論的な前提を必要とします。研究者は、説明において、必ずしも理論的前提をいつも明示するわけではありませんし、また、無意識のうちに使っている前提もあります。しかし、不適切な前提をもとにした説明では、説得力はありません。研究の評価では、どのような理論的前提が用いられているかを調べて、それらの妥当性をチェックする必要があります。
 
(2)説明が当該の事例にどれだけうまく当てはまっているか?

 その説明で当該の事例を一貫性をもって説明できるか。自説の説明に都合のよいデータしか検討していないか。自説の例外とおもわれる現象がどれくらいあるか。例外についてその場しのぎ(アド・ホック)でない理由を提案しているか。他の説明の仕方と比較してみた場合、より説得力があるか。

[妥当性を高める方法]
 研究の最終的な説明を形成するにあたって、どのような事例をもとにどのような理論的前提から、どういう検討の経緯を経たかを論文の中で明確に議論すべきです。その際、主張している説明とは対立するような他の説明の仕方の可能性を論文中で検討することが大切です。そして、他の説明よりも主張している説明の方が当該の事例によりよく適合することを示すことが必要です。
 仮説検証型の記述スタイルにこだわって、研究の最終的な説明の定式化を最初に述べて、事例でその妥当性を示していくという順序で論文を展開し、最終的な説明を形成する過程を示さない書き方は必ずしも勧めません。これは、フィールドにいく前に自説を作っておいてデータをそれに無理矢理当てはめたり、自説に都合のよいデータだけ示しているように読まれる危険性があるからです。データとつきあわせながら説明を練り上げていった経緯を論文中で具体的に説明することは、研究者がどれだけ妥当性に注意を払っていたかを示すことになり、説得力が大きくなるのです。もちろん、雑誌などでは論文のページ数制限のために、十分に経緯を説明できないことが多いのですが、著書、学位論文、報告書では試みるべきです。

II. 結論の評価

 結論は研究の焦点に呼応して述べられるものです。質的研究では、少数の事例を研究対象とすることが多いため、あまり一般性のある結論をすることは得意ではありません。少数事例からの帰納的推論の危うさは、研究者に認識されているからです。

1.結論が理論的推論にもとづく場合

 調べた事例からの結果を理論化して一般的な結論を引き出す場合があります。ただ、このやり方は、単一の事例だけを調べるだけの研究では難しいでしょう。理論的推論による一般化は、グレイザー&ストラウス(1996)の「絶えざる比較法」(constant comparative method)や分析的帰納(analytic induction)などがありますが、いづれも複数の事例研究をもとにして社会的現象についての一般的理論を生成するものです。いわゆる複数の事例研究のメタ・アナリシスを行うものです。
 評価では、以下のような点が問題になります:
(a)生成される理論が十分に明確に論じられているか
(b)調べられた事例のどういう特徴が当該の理論の生成にとって決定的であるのか。すなわち、事例のもつ他の特徴は本質的でないことを示しているかどうか。互いに異なる特徴をもつ事例を調べていれば、どの特徴が決定的なのかを判断しやすくなります。

2.経験的一般化の場合

 経験的一般化は、研究事例を含むより一般的な事例について主張を行うものです。読者は、どういう事例に一般化しているのか、あるいはすべきなのかを検討し、その一般化の妥当性を吟味します。
 質的研究では、統計的サンプリングの方法を使って研究事例を抽出していないのが普通なので、統計理論によって一般化を正当化することは期待できません。したがって、研究した事例の備えていた特徴が典型性を備えているか、他の研究者の研究結果や出版されている資料から裏付けられるか、などを検討して判断することなります。

関連性Relevance

 研究の関連性というのは、人々が関心をもつ事柄についての理解に研究が何らかの貢献をしているかどうかに関するものです。これは、研究課題が重要性のあるものかどうか、そして、研究結果が新しい知識をもたらすかどうかを評価することになります。

1.研究課題の重要性の評価

 研究課題の重要性を評価するということは、研究課題が数学教育に関する実践や理論の問題にどのように関わり合っているかを検討することです。それについては、通常は当の研究者本人が研究論文の始めで論じています。そこでは、たいてい、今日の教育実践あるいは教育研究の状況を述べて、これこれの問題が今日の課題になっている、今後はこれこれの方向が重要性を増していく等々といろいろな資料や研究文献をもとに主張し、自分の研究課題をそれらの中に位置づけします。論文の読者は、まず主張されている重要性の議論が十分に説得力があるかどうか判断することになります。今日あるいはこれからの状況を捉える著者の枠組みが適切か、今日的課題に関する理解が的を得ているか、資料や文献の使い方が適切か、などをチェックすることになります。
 ただし、研究課題の重要性の評価は、論文で著者が主張している点だけに限定する必要はありません。著者自身が思いもかけなかったような意義を読者が見いだす場合もあるからです。当の研究課題をどのような実践的ないし理論的問題の脈絡に位置づけたらよいかを、評価者自身も見いだす努力をして価値判断することが大切です。

 
2.研究結果のもたらす貢献

 研究課題が重要なものであっても、研究の結果が常識的で陳腐であったり、すでに研究者コミュニティでよく研究されて受け入れられている事柄を追認しただけである場合は、貢献度は低いとみなされます。
 反対に、以下の場合には、貢献度が高くなると考えられるでしょう:

(1)これまでにあまり研究されていない状況、側面、領域で研究結果を提出している

 例えば、最近新しい研究領域として注目をあびている社会的認知の研究、比較文化的研究、ジェンダーの研究、テクノロジーを利用した算数・数学学習などでの研究領域では貢献が比較的みやすいかもしれません。すでに多くの研究がなされている領域で貢献を行うには、それまでの研究でもまだ不十分な側面がどこかを指摘するために、多くの先行研究を注意深く検討する必要があるでしょう。

(2)これまでの常識や研究者コミュニティに受け入れられていた事柄や定説についてそれらを覆したり、それらについて修正や再考を促すような研究結果を出している

(資料終わり)


講座ホーム