資優兒童鑑定實作評量之效度初探 - academic.ntue.edu.tw ·...

30
國立臺北師範學院學報,第十七卷第一期(九十三年三月)299328 國立臺北師範學院 299 資優兒童鑑定實作評量之效度初探 * 呂金燮 ** 本研究之目的在探討以實作評量作為資優兒童鑑定工具之效度議題,以和鑑 定較為相關的內容品質、概化程度與公平性的三個效度指標為主要檢核向度。研 究對象是台北市參與二所國小資源式資優班鑑定入班觀察的國小二年級兒童,共 42 位兒童。參與入班觀察的兒童全部都接受標準化的智力測驗與觀察期的實 作評量活動,觀察期的實作評量設計主要依據與資優課程設計的直接性,分為弱 結構作業引導活動和動態主題活動二個層次。研究結果分析發現,弱結構實作評 量與國語、數學月考的平均相關較高,在.85~.87 之間,都達顯著水準;且與教師 平時觀察資優學習特質如學習能力、創造力皆有顯著相關;而主題式實作評量與 獨立思考和參與動機的相關都達顯著水準;而兩類實作評量與魏氏智力測驗等標 準化測驗的相關偏低,在.10~.30 之間;而概化分析發現主要的誤差來源為受試、 題目與評分者間的交互作用,而評分者的變異量極小,概化係數在.59~.89 之間; 另外,以變異量分析發現,兒童的性別並未顯著影響其在實作評量上的表現,研 究結果顯示實作評量應用上的內容品質、概化性以及公平性效度等的部分證據。 關鍵字:資優兒童、實作評量、效度 * 本研究獲國科會補助(NSC 90-2413-H-152-001),研究助理黃楨芬小姐,以及敦化、興 隆、秀朗、埔墘和中和國小等二十多位資優班教師之協助,在此一併致謝。 ** 呂金燮:國立臺北師範學院特殊教育學系副教授

Upload: others

Post on 14-Jan-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

  • 國立臺北師範學院學報,第十七卷第一期(九十三年三月)299~328 國立臺北師範學院 299

    資優兒童鑑定實作評量之效度初探*

    呂金燮**

    摘 要 本研究之目的在探討以實作評量作為資優兒童鑑定工具之效度議題,以和鑑

    定較為相關的內容品質、概化程度與公平性的三個效度指標為主要檢核向度。研

    究對象是台北市參與二所國小資源式資優班鑑定入班觀察的國小二年級兒童,共

    有 42 位兒童。參與入班觀察的兒童全部都接受標準化的智力測驗與觀察期的實作評量活動,觀察期的實作評量設計主要依據與資優課程設計的直接性,分為弱

    結構作業引導活動和動態主題活動二個層次。研究結果分析發現,弱結構實作評

    量與國語、數學月考的平均相關較高,在.85~.87 之間,都達顯著水準;且與教師平時觀察資優學習特質如學習能力、創造力皆有顯著相關;而主題式實作評量與

    獨立思考和參與動機的相關都達顯著水準;而兩類實作評量與魏氏智力測驗等標

    準化測驗的相關偏低,在.10~.30 之間;而概化分析發現主要的誤差來源為受試、題目與評分者間的交互作用,而評分者的變異量極小,概化係數在.59~.89 之間;另外,以變異量分析發現,兒童的性別並未顯著影響其在實作評量上的表現,研

    究結果顯示實作評量應用上的內容品質、概化性以及公平性效度等的部分證據。

    關鍵字:資優兒童、實作評量、效度

    * 本研究獲國科會補助(NSC 90-2413-H-152-001),研究助理黃楨芬小姐,以及敦化、興

    隆、秀朗、埔墘和中和國小等二十多位資優班教師之協助,在此一併致謝。 **呂金燮:國立臺北師範學院特殊教育學系副教授

  • 國立臺北師範學院學報,第十七卷第一期(九十三年三月)299~328 國立臺北師範學院

    300

    資優兒童鑑定實作評量之效度初探*

    呂金燮**

    對智力與學習能力的研究不斷發展之下,資優教育的學者特別強調問題解決

    能力在資優兒童的教育與鑑定上的角色,也提出以多元或實作評量的方式來符合

    認知心理學對學習能力和問題解決能力的研究發現(Gardner, 1983; Sternberg, 1982)。問題解決能力被視為是高層次的推理或思考心智的過程,而實作評量則因強調能力在問題情境中的應用表現與解題歷程的複雜度,被視為是這類高層次

    思考最有效的評量方式之一(Wiggins, 1993)。目前國內資優教育的鑑定方式也力求以多元的指標來評量學生,如台北市國小資優兒童的鑑定,在標準智力測驗之

    後,實施數週的教學活動觀察,期能以更實作多元的資料評估學生的學習能力。

    但源於觀察期的活動缺乏系統化,評分標準不明確,觀察期的資料僅供參考,而

    無實質的鑑定功能(呂金燮,民 89)。 實作評量的本質是要求學生表現專業的探究,而非只是證明在學業方面的成

    就,評量結果的重點是專業領域知識的表現。實作評量的設計提供評量者在較為

    真實的情境中觀察學生智能與學術能力的應用,也能較持續的觀察某些特定的智

    能表現,如好奇、專注、堅持、推理與問題的發現等,無法在標準化的測驗情境

    中表現能力的學生,或許在這類彈性與多元的評量中,可充分的表現他們的興

    趣、知識與專長的領域(呂金燮,民 88)。雖然,理論上,實作評量縮短了評量與教學間的距離,而開放式的評量活動,讓學生展現其表現結果的思考、推理和

    策略過程,以確保結果對學生學習或能力的本質和層次的有效推論;然而,必須

    體認的一點是,就如其他的評量方法,這個另類評量的應用仍必須透過嚴謹邏輯

    與研究上的檢核,尤其是在高風險的鑑定應用上(Linn, Baker, & Dunbar, 1991; Messick, 1994)。

    一個測驗或鑑定方式有效與否,必須從其預期的目的著手探討其達成的方式

    與結果的有效性。資優兒童鑑定的主要目的不外在確定兒童的資優特質,予以進

    * 本研究獲國科會補助(NSC 90-2413-H-152-001),研究助理黃楨芬小姐,以及敦化、興

    隆、秀朗、埔墘和中和國小等二十多位資優班教師之協助,在此一併致謝。 **呂金燮:國立臺北師範學院特殊教育學系副教授

  • 資優兒童鑑定實作評量之效度初探

    301

    入資優教育的決定,其二在提供教學的參考,以輔助資優課程與個別化教育方案

    的設計與執行,第三則是傳達資優的概念,優秀能力的另一種社會性肯定(呂金

    燮,民 88)。本研究的重點在以實作評量鑑定資優兒童的問題解決能力特質,做為能力指標的效度議題;而問題解決能力牽涉兒童整合許多知識經驗以及解題過

    程的努力,且受活動的結構度影響極大,因此,本研究的重點乃在探討實作評量

    作為資優兒童鑑定的工具時,其內容品質、概化性、與公平性等效度議題。

    壹、資優的定義與鑑定方式

    資優顧名思義就是智能優異;因此,資優的定義一世紀來一路跟著智力

    (Intelligence)的定義一起起伏。智力的研究從早期心理計量理論開始,強調一般智能(general intelligence)或抽象思考能力對於各種學習的主導性,智力測驗的分數也就代表了這樣的能力;於是智力測驗分數在前 2%的學生,就可以稱為資優學生(Terman, 1925)。因此,智力測驗一直被廣泛用來評量智能優異,資優也就和智商劃上了等號。但最近多元化的新智力觀念正在進行,其中就屬 Gardner (1983)的多元智力最受到廣泛的應用。資優教育學者也努力於突破原來單一而固定不變的智力概念,而從更多元,可學習,可改變的角度來詮釋人類潛能的特

    質,問題解決能力成為重點之一(Gardner, 1983; Sternberg, 1982)。而國內為配合多元智能的理念,民國八十八年教育部公佈資賦優異學生的鑑定原則鑑定基準,

    第十四條「所稱一般智能優異,指在記憶、理解、分析、綜合、推理、評鑑等方

    面較同年齡具有卓越潛能或傑出表現者」;其鑑定基準有:(1)智力或綜合性向測驗得分在平均數正一點五個標準差或百分等級九十三以上者。(2)專家學者、指導教師或家長觀察推薦,並檢附學習特質與表現等具體資料者。以台北市資優兒童

    鑑定為例,其多元評量方式包括由教師推薦時填寫資優兒童學習特質量表,一項

    非語文的團體智力測驗,通常是使用瑞文氏空間推理測驗,一項標準化個別智力

    測驗(魏氏個別智力測驗),加上國語、數學科成就測驗或成績;最後,個別智

    力測驗結果總智商達 1.5 個標準差(即智商 122)以上者,則參與入班觀察,也就是參與最後一個階段的八週觀察期,由資優班教師於教學中觀察評量其能力。

    在強調多元評量與多元指標的新評量觀念下,客觀的標準化測驗的題型過於局限

    於事實與抽象的推理理解能力,並未能了解到兒童真正能力的表現(Wiggin, 1989),因此藉由教師於實際應用的情境中觀察,以提供更具體的表現指標,於

  • 國立臺北師範學院學報,第十七卷第一期 302

    是資優兒童的鑑定有了觀察期的設計。但由於各校觀察期評量的實施,缺乏系統

    性的評分與分析,往往無法作為鑑定決策的依據,而觀察期觀察的表現和其他測

    驗評量之間的關係是如何,也欠缺深入的探討。

    貳、實作評量在資優教育上的應用 及其效度議題

    一、資優教育上的應用

    實作評量強調實作的表現,呈現問題解決能力的真實性、多元性與過程性(呂

    金燮,民 88),可是在資優生評量或鑑定上的應用則是近幾年才開始。實作評量在資優鑑定上的應用尚不多,比較具體的研究就屬 Feiring, Louis, Ukeje, Lewis, and Leong(1997)以實作評量鑑定學前的資優兒童;VanTassel-Baska, Johnson, and Avery(2002)在加州的 STAR 方案,以實作評量鑑定三到六年級學術性向的資優生;以及另一個「發現」方案(Sarouphim, 2000),對象為幼稚園、二年級、四年級和五年級的學生,這三個方案的研究重點都在以實作評量的方式發現與鑑定文

    化不利的弱勢學生;而國內的相關研究僅有呂金燮(民 89)以實作評量探討資優兒童問題解決能力一篇,可見實作評量在資優教育的應用上有待研究累積。

    Sarouphim(2000)以 Gardner 的多元智力為理論架構,評量能力指標有空間能力、邏輯數學、和語言能力三個向度。結果發現在各向度能力間的相關偏低,

    可見在某個能力向度表現優異的學生,在其他向度不一定也是資優,和多元智能

    的基本理論十分一致。 Feiring 等人(1997)的研究中,為了經濟效益的考量,以智力測驗為對照的

    基礎,設計七類型評量,包括語文表達、語文理解、抽象推理,數字概念、空間

    推理、短期記憶、肢體動作能力等,結果發現,在實作評量方案之前,只有 0.2%文化不利的兒童在進入一年級時被鑑定為資優生;相較之下,在方案中,有 2%的文化不利兒童在進入一年級時被鑑定為資優生。

    VanTassel-Baska 等人(2002)的實作評量設計以語文和非語文的領域優秀特質為重點,非語文的部分以計算的問題解決、數字概念、邏輯、分數的推理、組

    型、數字理論、空間推理、空間組型、幾何、以及轉換等為主要向度;而語文部

    分則以語文的問題解決、論說文寫作、類推比喻、語文相關、字母謎語和語文推

  • 資優兒童鑑定實作評量之效度初探

    303

    理為主要向度。題目活動的設計有幾個主要重點:(1)跳脫年級/高層年級為難度設計的依據,也就是不以兒童所屬的年級能力層次為活動難度的設計依據,而以

    高一年級的能力層次為難度設計的依據,以避免天花板效應;(2)開放的形式,鼓勵多元的思考與答案;(3)實際操作的應用,協助弱勢族群兒童充分表現其能力;(4)強調思考歷程的記錄,鼓勵學生以文字或圖畫等方式表達解題歷程。而依據實作評量的表現結果,低收入兒童和少數民族的學生共佔所有合格參與 STAR 方案學生的 31.5%,其研究結果提出:謹慎設計與檢驗的實作評量,也許是發現弱勢族群資優生的有利途徑。

    呂金燮(民 89)以實作評量探討參與資優鑑定觀察期資優兒童在語文與數學領域方面的問題解決能力,研究分析發現兒童在此兩個領域的表現相關偏低,與

    Sarouphim 的研究結果相符,再一次呈現在某個能力向度表現優異的學生,在其他向度不一定也是資優,和多元智能的基本理論十分一致;另外該研究從認知複

    雜度的角度探討實作評量的效度,發現兒童於解題過程中表現解題思考歷程向度

    的多元性,呈現專家與生手的特質差異,且兒童的解題結果表現出不同的能力層

    次,能區分普通兒童和資優兒童的解題能力。 從這些研究結果歸納,顯示實作評量的應用下,各能力向度間的相關不高,

    若不以全面的表現而從各能力向度獨立來判斷,實作評量的應用可以提昇文化不

    利資優生的發現率。另外,這些研究大部分都是在依據實作評量的特質與資優的

    特質,設計評量的活動或題目階段,除了呂金燮(民 89)對實作評量的認知複雜度效度議題有探討外,尚未有深入探討實作評量在資優生鑑定應用上的內容品

    質、概化性、以及公平性等效度議題。

    二、實作評量的效度議題

    任何一種評量,不論何種形態,都應符合一系列的效度標準,評量的結果才

    會準確、有用、也才能改進教學與學習(Linn, Baker, & Dunbar, 1991),效度的考驗將是實作評量所要面臨最嚴厲的挑戰。效度是一種多面的概念,它所考量的是

    一個評量方式的真實性與價值性。「真實」指的是如果評量真的評到它所要評的,

    而「價值」則和評量結果的使用目的有關。因此,評量的效度端賴評量結果的詮

    釋與使用的情境。效度的概念演進關鍵點在於 Messick(1989)提出效度漸進矩陣,他認為效度是漸進的過程,以建構效度為核心,以測驗的解釋與使用兩個應

    用的面向討論效度的證據基礎與後果基礎。證據的基礎,除了建構效度外,還涵

    括測驗使用的適切性與使用性,而後果面向則更延伸到了社會後果,這樣定義擴

  • 國立臺北師範學院學報,第十七卷第一期 304

    充了效度的概念,也增加了效度必須考量的議題。 從理論上的優點比較及既知的缺失來說,實作評量真正優於標準化測驗,乃

    在於它可對學生的知識與技能提供更有效的資訊。實作評量被視為可以真實的反

    應認知複雜度,而從評量結果的功能與生態價值上都十分值得,然而,誠如,Linn等人(1991)所提醒的,不要誤以為複雜、開放的問題就需要應用到高層次的思考能力,也不應認為這樣的評量就能對學習或能力可以有適當的推論。實作評量

    的效度兩難就在一方面要使問題所需的複雜度和模糊程度盡量加大,一方面又要

    使回答的自由程度,在適度的信度要求情況下,也加大其自由程度,這樣的特性

    在評估學生能力時,都是應該考量的效度議題。由此,Linn 等人(1991)特別強調對實作評量的效度檢核,他們從 Messick 的效度概念,提出在實作評量效度的八個檢核指標如認知複雜度、內容品質、概化性、意義性、公平性、後果、內容

    廣度以及經濟性與有效性等,本研究先從和鑑定的應用上較為相關的內容品質、

    概化性和公平性等三個指標探討。 (一)內容的品質 就如 Messick(1989)所提出的效度概念,效度追求之一「是在某測驗得分

    高的人在其他相似構念的指標表現上,理應也相對的高分。在這些所有的相關,

    追求構念效度的方法是幅聚和區辨效度證據的追求,以驗證從構念理論得出的組

    型(p.51,53)。」這裡強調的是評量的內容應該和當前對領域的最新了解有某種的一致性,並能於受試的表現中同時反應出來,更重要的是評量的內容應該是值

    得學生花時間去表現的(Linn et al., 1991)。 研究上檢核內容品質的方式有二,內部向度的相關性以及和既有的評量之間

    的表現相關來看。在各研究中實作評量和相關評量表現之間的相關不太一致,以

    VanTassel-Baska 等人(2002)加州 Star 方案而言,相關並不理想,而匹茲堡大學的 QUASAR(Quantitative Understanding Amplifying Student Achievement and Reasoning)方案(Lane, Liu, Ankermann, & Stone, 1996)為例,其研究分析發現實作評量的結果和 Iowa 基本技能測驗(Iowa Test for Basic Skills)中的問題解決和概念分測驗的相關,高於和 Iowa 基本技能測驗中數學計算的分測驗;其他國內曾惠敏、鄒慧英(民 87)、詹元智(民 91)、桂怡芬(民 85)、宋文菊(民 88)等人的研究都顯示了實作評量在應用上,內容品質區辨效度或幅聚效度的證據。

    (二)概化程度 概化主要在檢核分數的特質和解釋可以類推到相似母群、情境和題目活動的

    範圍,包括測驗-效標關係的效度概化(Messick, 1994)。在某些領域例如戲劇與

  • 資優兒童鑑定實作評量之效度初探

    305

    舞蹈,表現和結果基本上是同一件事,因此,類似表演藝術的領域,評量的是結

    果,也是歷程;在某些領域結果或表現的評量本身就是焦點,而非工具,例如藝

    術展覽和奧林匹克的個人溜冰比賽或科學展覽。在這種情境下,複製和概化不是

    重點,重要的是表現的品質,而效度的重點則在判斷評分的品質,對在此觀察到

    的表現不做其他能力的推論,因此,概化在這種情境下就不重要。但是當實作評

    量是一個表現的工具,而非表現的結果而已,概化的議題就不容忽視了。因為表

    現的一致性或變化都會影響分數的意義,同樣的也影響從觀察的樣本概化到相關

    的領域。 實作評量的應用從教室的教學情境到大量施測如鑑定上的應用,概化品質的

    控制會是較大的問題(Dunbar, Koretz, & Hoover, 1991)。實作評量的研究發現影響實作評量概化程度的誤差來源,主要有四個:(1)評量的題目或活動;(2)評分者;(3)施測的情境;(4)受試或他人無意的影響(Jiang, Smith, & Nichols, 1997)。Shavelson, Baxter, and Gao(1993)的研究顯示實作評量的學生表現高度工作依賴傾向,不同的領域中,都有學生在不同的評量題目或工作中表現不一致的情形發

    生。而 Jiang, Smith, and Nichols(1997)的後設分析發現最大的變異量來自題目本身,來自受試的變異量也頗高,然而,來自評分者的變異量並不大,而評分者

    的變異量在嚴格的評分者訓練之下,都可以降至最低,甚至於沒有任何變異;而

    受試、題目和評分者三者之間的交互變異量卻幾乎可佔全部變異量的 35%。 Baker ( 1997 ) 以 一 系列 認 知 歷 程 的 評 量 結 構 為 核 心 , 發 展 模 式 本 位

    (model-based)領域獨立的實作評量,試圖發展一套結構嚴謹的設計原則和評分系統的模式,以應用在不同的內容領域上,研究發現適當的評分訓練可讓信度達

    到理想的程度。而匹茲保大學的 QUASAR 方案(Lane et al., 1996),研究旨在評量課程的結果和學生在數學上的成長,在概化上的分析發現評分者的誤差是最低

    的,幾近於零或小於 1%;而最大的差異來自學生在不同題目上表現的變化,佔了所有變異量的 53%到 73%;源於受試學生的差異則佔 20%到 34%之間。

    題目之間一致性的檢核是評量的使用和結果解釋效度上的重要證據(Dunbar et al., 1991),題目之間的關係在科學領域(Shavelson, Baxter, & Pine, 1992)和在寫作上(Hieronymus & Hoover, 1987)的研究顯示,以少量題目建構之實作評量,其個別分數層次的概化都十分有限,問題不在所評量的構念本質和題目形式的多

    元,而是缺乏概化影響了分數結果解釋的效度。 一般而言,實作評量的特質之一就是評分的過程依賴人為的判斷以及多元的

    指標,這種主觀和多元的評分方式嚴重的影響了概化的程度,但是就上述的研究

  • 國立臺北師範學院學報,第十七卷第一期 306

    結果可以發現,評分者的變異量在嚴格的評分者訓練下是可以降至最低的;而影

    響實作評量概化性的主要誤差來源大都來自受試在不同題目上的表現,其次是受

    試、題目和評分者之間的交互作用。 (三)公平性 公平性全賴評量結果的應用與解釋,如果評量的結果受其他非評量的構念的

    影響,評量結果的應用與解釋就容易對某些特質的學生產生偏見。當然從標準化

    測驗轉換到實作評量,並不表示就沒有偏見的疑慮。實作評量的表現結果會有所

    差異,受對題目活動的熟悉度、接觸的經驗和對題目的興趣影響甚大(Linn et al., 1991),實作評量的公平性問題不只在評量題目的選擇,還有評分和學生的反應特性,如 Stiggins(1989)指出評分過程的關鍵在確保表現的評分反應學生真實的能力,而非評分者的觀點和偏見,因此評分者的訓練也就相形重要了。

    實作評量的項目通常需要情境脈絡及模糊不清的標準,當評量項目愈接近沒

    有定義的問題,評量的表現愈依賴一般的問題解決技巧,學科知識或能力的影響

    就愈少。表現的結果就容易受學生認知策略和背景的不同的影響(Lu & Suen, 1995; Snow, 1993)。其他因素如學生認知策略和問題形式互動的影響也就相對的增加,能力評定的問題則因評量目標和表現行為缺乏連貫,而產生偏誤。這種評量上的

    偏誤,不但提高了評量間的社會歧見,也可能會導致錯誤的教學或課程設計。 國內在實作評量所可能導致的非預期後果(如性別)研究上,李長柏(民

    91)以國小六年級學生為對象,以實作評量探討學生在數學解題和後設認知上的表現,結果分析發現學生在實作評量上的表現不因性別而有差異;陳聖泰(民 89)對國小五年級學生在自然科的實作評量表現的探討,也發現性別對於實作評量的

    表現無顯著的影響,另外,徐美英(民 89)的研究也顯示實作評量的結果與性別並無顯著差異。這些研究結果都顯示性別並不影響學生的實作評量表現,至於在

    國內人文環境中,其他相關影響的因素,如思維風格、歸因動機等則尚有待研究

    的探討。 綜觀上述,國內外實作評量的應用研究上,從內容品質、概化性、和公平性

    三個向度的探討上,研究結果雖大致都能提供實作評量應用上的效度證據,但是

    在資優兒童鑑定上的應用研究,則尚未有這些深入的分析,因此,本研究主要的

    目的在探討實作評量在資優兒童問題解決的鑑定應用上這三個效度議題,從兩個

    直接性層次的實作評量設計上,分析實作評量的(1)實作評量結果與其他學習能力評量的相關;(2)教師評分與活動的概化性;(3)學生性別與實作評量結果的相關性。

  • 資優兒童鑑定實作評量之效度初探

    307

    參、資優兒童觀察期實作評量設計 本研究的實作評量主要應用在資優兒童鑑定的觀察期,為配合資優生的特質

    以及鑑定觀察期的特性,實作評量的設計上有幾個特點,以下逐一說明。

    一、觀察期實作評量的設計理念

    Renzull and Reis (1986)強調資優兒童鑑定的過程中應該涵括學生在資優課程中的實際表現。因此,本研究將觀察期定位為試讀的角色,而實作評量的設計

    著重在建構和資優班學習情境相類似的情境,建構學生的學習經驗並觀察學生的

    能力表現。實作評量的功能主要為 Tannenbaum(1983)所提鑑定過程的選擇與區分階段。

    (一)以觀察期實作評量作為試讀的功能 Moon, Feldhusen, and Kelly(1991), VanTassel-Baska(1998)主張應該讓在

    資格邊緣的學生可採試讀的方式參與資優課程,再決定他們是否能從較有挑戰性

    的課程中學習受助益。試讀的原則就是安排受鑑定的學生參與類似或是實際資優

    課程方案的活動,在活動中觀察其能力的表現。試讀的方式可以幫助學生和教師

    認識學生的能力,Renzulli and Reis(1986)也強調資優兒童鑑定的過程中應該涵括學生在資優課程中的實際表現,這樣的過程方能提供有效的區辨證據。

    鑑定的過程無法達到完美的信度,在克服低信度的危機之下,評鑑者可以試

    讀作為鑑定過程的延伸,且提供邊緣的學生試讀的機會,這也就是 Vygotsky 所謂的「最大潛能發展區域」。以資優生而言,評量的過程中供高層次且快速教學的

    實際學習機會,遠比測驗更能呈現學生的能力。在課程方案中觀察學生的表現可

    以提供學生潛力的可貴補充資料,在方案中的學習表現可以視為鑑定過程的主要

    指標,如果能在方案中表現突出,也可以視為是鑑定過程的預測效度。 (二)以實作評量作為鑑定過程的選擇與區分階段 Tannenbaum(1983)認為資優生的鑑定過程要如過濾器,鑑定的工具就如過

    濾網或濾紙,容許純質的粉末通過,而過濾雜質。在過濾器從頂端到底部,逐漸

    縮小,每個層次各有一個濾網,開口最大的濾網是篩選階段,通過這個階段的標

    準十分寬鬆,以能夠適應資優課程的能力做為最遠端的指標,例如充實課程強調

    的學術性向優秀指標,可來自父母老師或同儕的推薦,以及在標準以下的智商,

    或許有些學校的充實課程機會很彈性,可用其他的工具替代個別化智力測驗,然

  • 國立臺北師範學院學報,第十七卷第一期 308

    而,這些指標和充實課程的內容相關仍是十分的間接,也就是開口最大的濾網。 鑑定的第二個階段是選擇,以模擬資優充實課程類似的活動或直接以充實的

    某些活動讓學生參與,以學生在活動中的表現區分其適合性,接下來需要的是盡

    可能挑戰學生的能力,只有成功的學生可以進入最後區分(differentiation)的階段,這個階段的目的在比較學生在某特定領域上的能力差異,一些小詩人也許在

    童詩或四行詩表現優異,一些小數學家也許對數字或邏輯遊戲愛不釋手。但是無

    論選擇或區分的階段,每位兒童必須具有充實課程的一些表現樣本,亦即資優的

    情境指標,以相對於篩選階段的遠端指標。

    二、實作評量活動的設計

    實作評量活動的設計主要依據 VanTassel-Baska(1986)對資優生的鑑定與評量所提出三個主要原則,這三個原則為(1)內容應以特定的領域為基礎,而非一般的智力原則;(2) 難度必須跳脫年級層次的評量;(3)應該和資優課程的焦點配合。

    (一)評量的內容與能力指標 一個有效度的鑑定過程應該包含對學生在每個領域優勢能力的分析,為了配

    合一般智能優異兒童在邏輯與語文上的優勢,而當學生進入國小階段,能力逐漸

    晶體化,也比較以特殊領域為重心。因此,實作評量的設計以語文和數學領域方

    面的問題解決為主要範圍。而本研究的「問題解決能力」指的是一種連結的能力,

    歸納演繹的能力,依據模式和例子的類推推理能力和重組的能力。 評量內容的能力指標乃依據呂金燮(民 89)所建立的資優兒童問題解決能力

    實作評量的內容能力指標,此能力指標改編自 Lazear(1995)以 Gardner 的多元智力觀所提出的語言與數學邏輯的高層思考能力要素。由於實作評量施測費時,

    本研究只選取應用複雜且適當的語言溝通想法及感覺,以及以不同的寫作方式表

    達想法,二項語文指標;而數理能力指標則以關係的歸納,以操作變因掌握解題

    的方式、以及符號表達能力等。 (二)評量難度的界定 如 VanTassel-Baska(1986)所強調:一般的成就測驗或教師的評量成績無法

    提供學生充分機會表現其能力的極致,容易產生所謂的天花板效應,當測驗或評

    量過於簡單或適合年級能力時,資優生和中等以上學生都集中在頂端,但無法區

    分資優生與中等學生的不同,天花板效應模糊了學生的真正能力,因此,最常使

    用的解決方式是跳脫年級層次的評量。以較高層次的能力評量而非學生的年級層

    次,如此評量的難度足以挑戰學生的能力,提供機會給學生表現其能力的最高層

  • 資優兒童鑑定實作評量之效度初探

    309

    次,如以國中一年級數學的難度評量國小五年級學生的數學能力,學生可以表現

    的空間就很寬廣。 (三)實作評量的直接性 實作評量上最大的隱憂是過度依賴文字敘述(Linn et al., 1991;呂金燮,民

    89),因此本研究在評量活動的設計上盡量避免過度依賴文字的敘述與表達,乃從弱結構式的引導以及動態的活動著手,讓兒童可以在擬資優課程的情境中表現

    學習的能力。資優兒童學習的個別差異大,以一致性的評量活動,無法一窺兒童

    的個別多元性,本研究實作的直接性層次的設計,主要以 Messick(1994)對實作評量的直接性的定義為依據,強調資優課程教學中,兒童領域能力應用情境脈

    絡的直接性。依據一般資優課程教學常用的領域特定與跨領域的主題整合活動等

    兩種情境型態,將實作評量的直接性分為兩個層次,一個層次為沒有選擇權的弱

    結構作業引導模式,另一個層次為動態的主題活動與作業引導模式;弱結構作業

    引導模式旨在提供領域情境的脈絡,重點在領域能力的表現,而動態的主題活動

    旨在提供跨情境的脈絡,重點是在讓資優生充分發揮所謂「全面觀」的統整能力

    (Ambrose, 1996)。弱結構作業引導的模式強調在作業過程中引導學生的思考歷程,以個別獨立作業為主,以弱結構式的作業單引導學生思考語文和數理方面的

    問題,而後者則分為動態的主題活動和選擇性的獨立作業模式。主題活動主要在

    流體智力,而作業單則偏重在晶體智力。 動態的主題活動以團體活動為主,主題教學設計,融合數學、語文和自然概

    念的表現,此次的主題為兒童經驗中最為熟悉的動物「螞蟻」,以 Schiever and Maker(1990)對資優兒童五個連續性層次問題設計的架構為主軸,以語文和數理邏輯為內容,自然為情境設計的向度,探討兒童在這些方面的興趣與能力表

    現。獨立作業單和主題活動的配合,是以主題活動的能力概念為主,作加深加廣

    的延伸,例如主題活動需要估測能力,作業單則以結構式的方式引導學生表現對

    估測的一些基本概念等。

    肆 、研究方法

  • 國立臺北師範學院學報,第十七卷第一期 310

    一、研究對象

    弱結構式實作評量的研究對象是參與台北市大安區設有資源式資優班的一

    所國小資優兒童鑑定觀察期的二年級學生,共二十二人,其中男生有十六位,而

    女生僅有六位。平均年齡七歲七個月,魏氏智力測驗的全量表智商在 122 以上,語文智商平均 125.9,而作業智商平均 128.7,全量表智商平均為 129.5。

    動態主題式實作評量的研究對象為參與台北市景美區設有資源式資優班的

    一所國小資優兒童鑑定觀察期的二年級學生,共二十人,其中男女生各十位,平

    均年齡為七歲八個月。魏氏智力測驗中,語文智商的平均為 125.7,而作業智商平均為 126.9,全量表智商平均 128.5。

    二、評量工具

    (一)實作評量活動 弱結構式實作評量的作業單,是依據呂金燮(民 89)所設計的實作評量活動,

    其活動設計的弱結構特質在於提供能力應用的模擬問題情境,而其解題標準敘述

    不清楚,解題條件不足,解決問題的策略與方法多元,而解題的結果也多元,且

    能在解題歷程中觀察到兒童的解題歷程(Yussen, 1985; Getzels & Csikszentimihalyi, 1967)。為配合團體施測,依據該研究認知複雜度的分析中,挑選較能區別資優兒童的三個活動,分別是散文閱讀與接寫、童詩填寫和影片描述,強調語文的理

    解與表達能力。而數學則以重在符號表達、推理歸納以及掌握變因的解題技巧的

    彩繪玻璃 I、II 和超級市場為主。 主題式實作評量則以觀察期為試讀的角色,以相同的能力指標建構和資優班

    主題學習與自主課堂的情境類似的情境,強調兒童在問題情境應用非語文的符號

    表達思考概念、歸納關係、操弄變因標準以及語文表達等能力解決問題的表現。

    主題情境選擇以兒童最為熟悉的動物「螞蟻」的觀察為情境,主要活動分為螞蟻

    路徑、螞蟻哈哈鏡、螞蟻雄兵、螞蟻迷宮、螞蟻族群以及螞蟻小記者,其中非語

    文符號的思考在螞蟻哈哈鏡(符號表達 1)、螞蟻雄兵(符號表達 2)和螞蟻迷宮(符號表達 3)等三個問題情境中觀察,而歸納關係則在螞蟻雄兵(關係歸納 1)和螞蟻族群(關係歸納 2)中觀察,操弄變因則在螞蟻雄兵(標準操弄 1)和螞蟻迷宮(標準操弄 2)中觀察,而語文表達則在螞蟻路徑(語文表達 1)和螞蟻小記者(語文表達 2)中觀察。相對於弱結構作業單的活動,主題式活動更為開

  • 資優兒童鑑定實作評量之效度初探

    311

    放,且僅有一個主題,為了避免個別學生的興趣與動機問題對表現結果的干擾,

    評量設計中特別增加學習動機的情境佈置,如利用大幅海報和學生自我檢核,以

    視覺效果呈現兒童的參與與進度,以及兒童可以選擇從事的獨立作業,以降低對

    主題的興趣與動機因素的影響。 由活動觀察記錄和教師對學生參與動機的評估發現,二十位學生的參與動機都很高,沒有學生因為主題的關係,而降低參與的

    動機;大部分的學生參與動機都在五等第評分的三以上,而沒有任何一位兒童的

    動機評分持續三次在三以下,可見因主題因素的動機影響在合理可接受的範圍

    內。 (二)標準化智力測驗 在國小資優兒童篩選鑑定的歷程中,以黑白瑞文氏(SPM)的空間推理測驗

    和魏氏智力測驗為主要工具。黑白瑞文氏是團體施測,而魏氏智力測驗是個別施

    測。兩項測驗都是在鑑定篩選過程中,各校分別完成。 (三)學科成就測驗 學科的成就以該校自編的國語和數學成就測驗,以及學生在二年級國語數學

    的評量成績為依據。弱結構式實作評量的學校,其成就測驗並未建立信效度資

    料,以參與鑑定的四十五位兒童的資料,其內部相關係數為 0.78。其中參與主題式實作評量的學校,因為該校沒有自編成就測驗,另外又配合九年一貫課程多元

    評量的實施,也沒有各科學習評量的成績可以參考,學科成就測驗方面的資料從

    缺,因此主題式評量的設計,這方面就無從分析。 (四)資優特質量表 資優特質量表是以吳武典、郭靜姿、陳美芳和蔡崇建所編的資優生學習行為

    觀察量表施測。從學習能力、學習精神、創造能力、人際適應等四個向度觀察學

    生的學習特質。每個向度各有 10 小題,最高得分為 40 分。該量表評分量表α值介於.76~.81 間,評分者間信度在各分量表之 r 值介於.41~.67 間。效度考驗學習能力與創造能力之得分與智力測驗及各鑑定工具之加權總分間多有顯著正相

    關,惟均屬低相關。

    三、研究歷程

    兩所學校的實作評量施測時間都在二年級下學期,四月到五月間,一次一小時至一小時半的時間,分為六週,共六次的時間,皆為團體施測方式。活動的進

    行在該校資優班上課或活動教室,由該校的資優班教師負責,一位負責活動的引

    導與說明,一位負責學生反應的觀察與記錄;另外,施測過程中,研究者與研究

  • 國立臺北師範學院學報,第十七卷第一期 312

    助理全程觀察錄影,並在每次的觀察活動結束後,與該校教師討論觀察結果與修

    正後續活動。

    四、評分表與評分者

    兒童在實作評量解題結果的評分由兩校的資優教師分別評分,弱結構式的評量活動結果是依據呂金燮(民 89)的具體評分規準評分,表 1 舉彩繪玻璃的評分規準為例;而主題式的評量活動結果則是依據研究者參照 Glaser(1991)的問題解決能力指標所設計的一般評分規準評分,評分的向度依兒童所表達的內容概念

    與問題解決的歷程分為五個等級,內容概念的區別由表達的概念模糊不清到最優

    秀的表達的概念詳細且有系統;而問題解決歷程的層次則由沒有覺察可用的資訊

    或策略,到最優秀的表現為有計劃性的使用解題策略或資訊。兩位教師在教學中

    和教學後分別獨立對學生的表現作評估,並於評分說明中補充觀察到的具體表現

    或評分依據。弱結構式的實作評量分為語文和數學兩個領域,每個領域各由該領

    域兩位資優班教師評分;而主題式雖也是由兩位資優班教師評分,但是兩位教師

    分屬語文和數理領域。正式評分前先以二個類似活動進行評分者訓練,以了解評

    分者對評分規準詮釋上的差異,並進行討論。二類型實作評量的評分者信度以概

    化分析,概化係數分別弱結構語文為.89,弱結構數學.59,而主題式為.69。

    表 1 彩繪玻璃具體評分規準舉例

    分數 反應類型舉例

    4 精確的專家解法一次操弄一個變項:有系統的固定顏色以及

    顏色數目變項,改變位置變項

    3 有規則的著色,有時候操弄兩個變項

    2 有計畫,但不能貫徹(中途跳脫,又修正回來)

    1 沒有明確的規則想到什麼,就畫什麼

    0 沒有反應,空白

    五、資料的處理

    兒童在實作評量的解題過程由施測的教師記錄再以錄影帶補充,以利結果的解釋。而各評量活動的解題結果得分由評分者評分後,因只選取部分活動作為分

    析,而各分項活動的總分不一,而每個領域所有活動的總分亦非以 100 分為滿分,為便於討論,乃將原始分數化為滿分為 100 的百分數後,再進行資料的統計分析。

  • 資優兒童鑑定實作評量之效度初探

    313

    伍、結果分析與討論

    一、實作評量活動內容品質分析

    (一)活動的內在相關 弱結構式實作評量。弱結構式語文實作評量活動的內在相關,以散文閱讀與

    接寫和影片描述的相關最高,相關為.67,達.05 的顯著水準,這個相關可能來自這二個活動都需要敘寫的能力。而影片描述和童詩填寫為.40,童詩填寫和散文閱讀與接寫為.23,兩者都未達顯著水準,這些活動本身語文能力的應用型式迥異可能是造成此結果的因素之一。

    弱結構式數學實作評量活動的內在相關,以彩繪玻璃 I 和超級市場與彩繪玻璃 II 的相關,分別為.48 和.76,都達.05 的顯著水準,而超級市場和彩繪玻璃 I的相關為.35,並未達顯著水準。而語文實作評量與數學實作評量的相關為-.03,兩者的評量表現成負的低度相關;而各題型間的相關則從-.18~.26,最低的是童詩填寫與彩繪玻璃 I,而最高的是散文接寫與彩繪玻璃 II,是否散文的評分中強調文章敘述的邏輯結構與彩繪玻璃的邏輯思考有相關,需進一步的研究。

    主題式實作評量的內在相關。表 2 中可以看出主題式實作評量的各個活動之間的相關都達.05 的顯著水準。符號表達 1, 2,和 3 的相關為.85~.95,而關係歸納 1 和 2 的相關為.86,標準操弄 1 和 2 的相關為.79,語文表達 1 和 2 的相關為.59,皆達顯著水準,由此可見同一個能力在不同情境中的應用表現有高度的一致性。

    而符號表達、關係歸納、標準操弄和語文表達等四個主要向度的相關分析發現,

    語文表達和符號表達、關係歸納和標準操弄的相關皆達顯著水準,分別為.76、.47和.61;而符號表達和關係歸納為.43,和標準操弄為.34,都未達顯著水準;而關係歸納和標準操弄的相關為.22,是所有相關最低者。這些相關中顯示語文表達為表現中的主要共同能力之一,而符號表達強調空間思考能力與符號象徵能力的應

    用,與關係歸納和標準操弄的邏輯思考並未有明顯的相關。

  • 國立臺北師範學院學報,第十七卷第一期 314

    表 2 主題式實作評量的內在相關

    符號 表達 1

    符號 表達 2

    符號 表達 3

    關係 歸納 1

    關係 歸納 2

    標準 操弄 1

    標準 操弄 2

    語文 表達 1

    語文 表達 2

    符號 表達 2

    .85*

    符號 表達 3

    .87* .95*

    關係 歸納 1

    .66* .82* .79*

    關係 歸納 2

    .77* .90* .85* .86*

    標準 操弄 1

    .82* .81* .84* .85* .89*

    標準 操弄 2

    .78* .85* .80* .80* .91* .79*

    語文 表達 1

    .84* .82* .74* .70* .84* .76* .87*

    語文 表達 2

    .58* .66* .61* .64* .67* .73* .45* .59*

    總體 表現

    .88* .94* .92* .86* .94* .90* .89* .88* .75*

    *: p

  • 資優兒童鑑定實作評量之效度初探

    315

    圖1 弱結構式實作評量得分分布

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    ~60 61~65 66~70 71~75 76~80 81~85 86~90 91~95 96~100

    分數組距

    語文

    數學

    圖2 主題式實作評量得分分布

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    ~30 31~35 36~40 41~45 46~50 51~55 56~60

    分數組距

    (三)實作評量表現與其他測驗評量間的相關分析 從表 3 中可以看出資優生學習特質中的學習能力、創造力和人際關係和弱結

    構式語文的相關有達到顯著水準;而國語評量的平均和弱結構式語文的相關,以

    及數學評量的平均和弱結構式數學的相關也達顯著水準;而獨立思考、參與動機

    與整體表現和主題式實作評量的相關也達顯著水準;但是兩類實作評量和標準化

    智力測驗間的相關偏低。由此可見,實作評量與學生在平時的觀察表現相關較

    高,而和標準化測驗的結果有所不同。實作評量強調情境中能力的應用與解題歷

    程,在內容概念和施測方式上都和標準智力測驗迥異,因此相關偏低是可預期

    的,而學校自編的成就測驗涵括整年級的知識廣度和實作評量重視能力深度的應

    用,二者的重點差異也可能是兩者相關偏低的因素之一。

  • 國立臺北師範學院學報,第十七卷第一期 316

    表 3 實作評量與其他測驗的相關

    評量向度 弱結構式語文 弱結構式數學 主題式實作 黑白瑞文氏測驗 .06 .29 .32 語文智商 .03 .21 .24 作業智商 .01 .22 .22 總智商 .10 .22 .31 自編國語成就測驗 .15 .19 自編數學成就測驗 .12 .27 國語評量測驗平均 .85* .05 數學評量測驗平均 .36 .86* 學習能力 .48* .22 .19 學習精神 .02 .10 .11 創造力 .72* .18 .05 人際關係 .53* .29 -.01 獨立思考 .53* 參與動機 .43* 整體表現 .77* *: p

  • 資優兒童鑑定實作評量之效度初探

    317

    異量。 從表 4 和圖 3 中可以看出,在概化研究相同的設計下,在決策研究的階段,

    當評量題目和評分者為固定效果模式,概化係數為.89。如果將提昇評量結果的概化性,雖然題目的變異量比評分者的變異量大,增加題目的數量較增加評分者的

    向度來得有效,就資優兒童鑑定施測的時間經濟效益及可行性而言,題目不能過

    多,因此以本研究的 27 題為對照,在決策研究階段,若評分者向度為固定模式,評量題目減為十五、二十題和二十五題時,概化係數為.85、.87、.88,而若增加到三十或三十五題左右時,就沒有多大的變化了,因此增加題目對概化性的提昇

    幫助並不大,而若將題目減少為二十題時,概化性也未改變,可見以本研究中的

    二位評分者,若題目減至二十題,概化的程度仍可具良好的水準。而若題目為固

    定模式,而評分者從二位增加到三位和四位時,概化係數從.89 增加到.91 和.92,而增加到五位以後,概化係數的改變就十分微小且幾近於零,因此若要將概化性

    提昇至.90 以上的水準,可以增加一位評分者,可是就學校實際運作情形會有困難,而本研究二位評分者而言,已具良好的一致性。

    表 4 弱結構式語文實作評量概化分析 決策研究變異數估計值

    效果 變異數 變異數百分比 R=2

    I=27R=3I=27

    R=4I=27

    R=2I=15

    R=2 I=20

    R=2 I=25

    受試(p) .2364 23% .2364 .2364 .2364 .2364 .2364 .2364 題目(i) .0563 5% .0021 .0021 .0021 .0038 .0028 .0022 評分者(r) 0.000 0% .0000 .0000 .0000 .0000 .0000 .0000 (p×i) .2129 20% .0079 .0079 .0079 .0142 .0106 .0085 (p×r) .0298 3% .0149 .0099 .0075 .0149 .0149 .0149 (i×r) .1251 12% .0023 .0015 .0011 .0042 .0031 .0025 (p×i×r) .3923 37% .0073 .0048 .0036 .0130 .0098 .0078 概化係數 .89 .91 .92 .85 .87 .88 決策係數 .87 .89 .91 .82 .85 .87

  • 國立臺北師範學院學報,第十七卷第一期 318

    圖3 弱結構式語文概化係數

    0.8

    0.82

    0.84

    0.86

    0.88

    0.9

    0.92

    0.94

    2(15) 3(20) 4(25) 5(30) 6(35)

    評分者數目(題目數)

    數評分者

    題目

    (二)弱結構式數學評量概化分析 從表 5 也發現兒童在數學領域的表現在概化分析階段,受試、評分者和題目

    三者間交互作用的變異量佔所有變異量的 46%,是所有變異量中最高的比例,學生在不同的評量題目和不同的評分者間的表現不盡相同;而受試與題目的交互變

    異量,佔全部的 21%,再次表示學生在不同評量題目上的表現並不一致。受試的變異量佔所有變異量的 6%,題目的變異量佔 12%,評分者的變異量則佔 3%,顯示評分者的誤差來源不大,題目特質對學生表現結果有很大的影響,而兒童本身

    的差異並非決定其表現的主要因素。 從表 5 和圖 4 中可以看出,在概化研究相同的設計下,在決策研究的階段,

    當評量題目和評分者為固定效果模式,概化係數為.59。如果要提昇評量結果的概化性,題目的變異量比評分者的變異量大,增加題目的數量較增加評分者的向度

    來得有效,若評分者向度為固定模式,評量題目從十二題增加到十五和十八題

    時,概化係數為.64 和.67,而若增加到二十一或二十四題左右時,就沒有多大的變化了,因此增加題目到十八題時對概化性的提昇幫助最大。而若題目為固定模

    式,而評分者從二位增加到三位和四位時,概化係數從.59 增加到.65 和.67,而增加到五位以後,概化係數的改變就十分微小且幾近於零。若要提昇結構式數學評

    量結果的概化性,從增加題目數和增加評分者的數目兩個向度而言,所提昇的概

    化性十分相似,但從學校實務上考量而言,增加題目的數目會比增加評分者可行

    性高,因此,若將評量的題目增加至十八題,便可將概化性提昇至.67,雖不高,但是可以接受的程度。

  • 資優兒童鑑定實作評量之效度初探

    319

    表 5 弱結構式數學實作評量概化分析 決策研究變異數估計值

    效果 變異數 估計值

    變異數

    百分比 R=2I=12

    R=3I=12

    R=4I=12

    R=2 I=15

    R=2 I=18

    受試者(p) .0313 6% .0313 .0313 .0313 .0313 .0313 題目(i) .0579 12% .0048 .0048 .0048 .0038 .0032 評分者(r) .0169 3% .0085 .0056 .0042 .0085 .0085 (p × i) .1049 21% .0087 .0087 .0087 .0070 .0058 (p × r) .0061 1% .0031 .0021 .0015 .0031 .0031 (i × r) .0532 11% .0022 .0015 .0011 .0018 .0015 (p×i×r) .2305 46% .0096 .0064 .0048 .0077 .0064 概化係數 .59 .65 .67 .64 .67 決策係數 .46 .52 .55 .50 .52

    圖4 弱結構式數學概化係數

    0.5

    0.55

    0.6

    0.65

    0.7

    2(12) 3(15) 4(18) 5(21) 6(24)

    評分者數目(題數)

    評分者

    題目

    (三)主題式實作評量概化分析 從表 6 可以發現兒童在主題式評量上的表現在概化分析階段,受試、評分者

    和題目三者間交互作用的變異量佔所有變異量的 28%,也是所有變異量中最高的比例,顯示學生在不同的評量題目和不同的評分者間的表現不盡相同;而受試與

    題目的交互變異量,佔全部的 10%,再次表示學生在不同評量題目上的表現並不一致,而受試與評分者的交互變異量為 14%,顯示不同的評分者對學生的看法不同。受試的變異量佔所有變異量的 21%,題目的變異量佔 4%,評分者的變異量

  • 國立臺北師範學院學報,第十七卷第一期 320

    則佔 16%,顯示題目的特質對學生表現結果雖有影響,但不大;而評分者對學生有不同的觀點,對兒童的表現結果有很大的影響;雖然如此,由此也看出,除了

    三者交互的變異量,兒童本身的差異是這三者中決定其表現的主要因素。 從表 6 和圖 5 中可以看出,在概化研究相同的設計下,在決策研究的階段,

    當評量題目和評分者為固定效果模式,概化係數為.69。如果要提昇評量結果的概化性,評分者的變異量比題目的變異量大,增加評分者的數量較增加題目的向度

    來得有效。若題目為固定模式,而評分者從二位增加到三位和四位時,概化係數

    從.69 增加到.76 和.80,而增加到五位以後,概化係數的改變就十分微小且幾近於零。但從學校實務運作狀況而言,增加評分者的難度較高,因此,嘗試增加題目

    數量來提昇概化性是必要的。若評分者向度為固定模式,評量題目從十題增加到

    十五和二十題時,概化係數從.69 到.71 和.72,而若增加到二十五或三十題左右時,就沒有多大的變化了,因此增加題目對概化性的提昇並沒有比增加評分者的

    幫助大;而若將評分者增加到四位時,概化係數才能提昇至.80,對學校實務而言,可行性並不高。

    表 6 主題式實作評量概化分析 決策研究變異數估計值

    效果 概化研究

    變異數 估計值

    變異數 百分比 R=2I=10

    R=3I=10

    R=4I=10

    R=2 I=15

    R=2 I=20

    受試者(p) .3539 21﹪ .3539 .3539 .3539 .3539 .3539 題目(i) .0583 4﹪ .0058 .0058 .0058 .0038 .0029 評分者(r) .2636 16﹪ .1318 .0878 .0659 .1318 .1318 (p x i) .1725 10﹪ .0173 .0173 .0173 .0115 .0086 (p x r) .2378 14﹪ .1190 .0793 .0595 .1189 .1189 (i x r) .1090 7﹪ .0055 .0036 .0027 .0036 .0027 (p x i x r) .4657 28﹪ .0233 .0155 .0116 .0155 .0116 概化係數 .69 .76 .80 .71 .72 決策係數 .54 .63 .68 .55 .56

  • 資優兒童鑑定實作評量之效度初探

    321

    圖5 主題式實作評量概化係數

    0.6

    0.65

    0.7

    0.75

    0.8

    0.85

    2(10) 3(15) 4(20) 5(25) 6(30)

    評分者數目(題目數)

    數 評分者題目

    三、學生性別與實作評量表現的相關

    經由單因子變異數分析,結果顯示實作評量的表現並未性別而有顯著差異,

    弱結構語文、弱結構數學和主題式 F 值分別是 1.44、.02、2.1。

    陸、結論與建議 效度的檢核,原就是一個累積證據的歷程,本研究的結果只是實作評量在資

    優兒童鑑定應用上效度累積歷程中的一部分證據。本研究持續呂金燮(民 89)對實作評量在資優兒童鑑定應用上認知複雜度指標的檢核,針對內容品質、概化性

    和公平性三個指標作檢核。依據國小資優課程進行的情境設計的實作評量類型,

    從動態活動進行觀察的部分發現,兒童對活動的解讀和解題歷程的記錄是研究過

    程中最大的挑戰,而為了量化的分析,這些歷程性的思考在此無法呈現,將在後

    續的分析中探討。以下茲將從內容品質、概化性和公平性的分析結果,討論資優

    兒童鑑定觀察期實作評量的效度議題,並從此次研究結果與困難提出未來理論研

    究與實務應用上的建議。

    一、研究結果

    從結果分析與討論中,可以歸納以下幾點; (一)實作評量可以發揮多元能力指標的功能 實作評量的內部相關上,語文實作評量的內部相關並未達顯著水準,是否是

  • 國立臺北師範學院學報,第十七卷第一期 322

    表現形式的差異所造成,或表現能力的迥異,必須再深入探討。而語文實作評量

    和數學實作評量的相關呈低度的負相關,和 Sarouphim 以及呂金燮(民 89)的研究結果相符,如 Gardner(2000)的多元智力理論所提出能力的多元性,在語文領域優異的學生在數理領域未必能夠傑出,這和許多資優班教師在平常教學的觀

    察結果也十分一致。而實作評量與平時的評量有顯著相關,如弱結構語文和數學

    分別與國語、數學的學期測驗平均,而弱結構語文則與教師對學生資優特質的觀

    察中的學習能力和創造力有顯著相關;而主題式則與獨立思考和參與動機有顯著

    的相關;而這兩類實作評量和其他標準化的智力測驗卻是低度相關,顯示實作評

    量所評量的能力較接近兒童平時的能力表現,而與標準化的測驗內容有所差異。

    從多元鑑定指標的角度來看,與平時表現的相關而與標準化測驗的差異可以讓實

    作評量在鑑定上發揮多元能力指標的功能。 不過,實作評量與標準化測驗之間的低度相關,除了上述內容和施測方式的

    差異外,值得考量的一點是這個差異也有可能來自實作評量內容的廣度不夠,由

    於時間與人力的限制,實作評量的廣度有限,無法像標準化測驗能夠涵蓋所有的

    內容能力向度,而兒童在每個向度僅有一次的表現機會,也會間接造成兩者評量

    結果的低度相關。而實作評量內容廣度的代表性,一直是實作評量的限制,也應

    是後續研究需要努力的部分。 另外,在兩校參與觀察的兒童能力無顯著差異之下,從圖 1 和圖 2 兒童得分

    的分配中,可以看出弱結構作業引導模式的實作評量活動中,兒童的得分分配比

    較集中,而動態主題評量的活動中,兒童的得分分配區間比較廣,從這次研究的

    初步分析,動態主題評量提供兒童較大的彈性表現方式,但是否達到統計上的區

    辨性則有待進一步的研究探討。另外,數學領域的難度偏易,可能由於數學領域

    本身的結構性,加上問題思考過程引導,簡化了難度,也讓數理較為突出的兒童

    無法發揮,是否因此容易產生天花板效應,則也有待進一步的研究分析。這個結

    果也顯示具體評分表應用上的限制,由於弱結構的活動以具體評分表為評分依

    據,在資優兒童個別差異甚大,而具體評分表也可能侷限了教師判斷的範圍。相

    對的,動態主題式的實作評量,類似教學開放的活動與表現方式的多元選擇,提

    供兒童充分的表現空間,比較能挑戰其統整的能力;而一般評分表雖然沒有具體

    的表現例子以供判斷依據,但是教師能依兒童的表現而調整判斷的標準,這樣的

    彈性,或許間接提供了區辨兒童能力的空間,這也有待後續研究來釐清。

  • 資優兒童鑑定實作評量之效度初探

    323

    (二)受試、題目和評分者間的交互作用是影響實作評量概化性的主

    要誤差來源。 概化分析的結果發現,語文實作評量的概化性優於數學和動態主題式的實作

    評量設計,而數學的概化性是其中最不理想的,尤其來自受試本身的差異僅佔

    6%,而受試、題目和評分者間的交互作用卻佔了 46%;這個結果顯示數學實作評量在區分兒童能力的差異上不理想,且易受其他因素的影響。而動態主題式評

    量則因為 一般評分 表的開放 性,評分 者之間的 差異遠較 其他兩個 評量高

    (16%vs.0%,3%),但是來自兒童和題目的交互作用是遠低於其他兩個評量(10%vs.20%,21%),是活動設計上的優勢。

    影響概化的因素中,受試、題目和評分者間的交互作用是主要誤差來源,而

    題目和評分者的誤差都不大。這些結果顯示,和前述實作評量的概化研究結果相

    符,評分者若經過訓練,其誤差都極小;而由於實作評量的開放性,兒童的表現

    有高度工作依賴的傾向,也就是兒童在不同的評量活動中表現不一致,而評分過

    程依賴主觀的判斷,使得兒童表現結果深受兒童特質、題目特性以及評分者主觀

    判斷的影響,顯見實作評量的分數受這三者交互作用的影響,而降低了其概化性。 另外,由表 4 到表 6 以及圖 3 到圖 5 概化程度的改變可以發現,增加評分者

    人數或增加題目數對概化係數的影響並不顯著,顯見評分的人數或題目的多寡並

    不影響分數的概化性,問題不在評量的構念本質或題目形式的多元,要增加概化

    性,評量活動的設計有待進一步的修正,尤其避免兒童表現高度題目依賴的影響。 (三)研究結果提供公平性的部分證據 結果分析中可以看出,實作評量的結果與兒童性別並無顯著相關,也就是依

    據此次的研究資料而言,兒童的性別並不影響兒童在實作評量上的表現。在鑑定

    應用上的公平性而言,這個因素尚未造成影響。不過,值得考量的是概化分析中

    發現受試、題目和評分者間的交互作用誤差最大,這樣的交互作用是來自兒童的

    哪些特質、或題目特性、或評分者對表現的詮釋間的交互影響,仍應是最需探討

    檢核的。

    二、研究困難與限制

    (一)研究樣本僅以二個學校的四十二位參與鑑定觀察的兒童為主,樣本的

    代表性限制了研究結果的推論。 (二)評量活動強調解題思考的深度與歷程,但領域內容的廣度不足,尤其

    主題式的評量僅以一個主題情境進行觀察,廣度的涵括程度無法具代表性。如其

  • 國立臺北師範學院學報,第十七卷第一期 324

    他領域的實作評量研究限制,為了讓兒童充分表達思考,實作評量以開放性情境

    設計,這樣的評量歷程費時費力之下,犧牲了概念知識領域的範圍廣度,每個向

    度的題型在時間的限制下僅能有一、二題,內容廣度的代表性仍需未來研究突破。 (三)研究領域僅限於語文和數理能力的應用,沒有涵括多元智能的其他向

    度如自然能力,對智能優異兒童多元能力的代表性不足,有待後續研究的努力。 (四)在舊的成就測驗不適用,而學校自編成就測驗無法標準化下,學科成

    就方面的標準不一,也限制了結果的推論。目前教科書版本開放多元下,學科成

    就測驗的標準化會是很大的困難。

    三、未來研究之建議

    (一)實作評量的效度議題已探討的有認知複雜度(呂金燮,民 89)、內容品質、概化性和公平性,這方面的探討仍有待繼續,而其他如意義性、教學上和

    經濟效益等向度尚有待研究的累積。 (二)本研究和之前的研究的概化分析都一致指出,評量結果受試、題目和

    評分者間的交互作用是主要誤差來源,學生的特質和題目特性是否有某些程度的

    相關,例如 Sternberg and Lubart(1995)所提出的思維風格或歸因動機等,都是實作評量應用上公平性議題可繼續探討的。

    (三)主題式活動設計是否能提供較佳的區辨性,或一般評分表是否提供評

    分者較大的空間,而有利於呈現學生思考上的差異,是值得繼續研究的重點。另

    外動態主題式的設計,試圖擬真資優班學習情境的複雜度,但在研究分析尚未能

    針對情境複雜度的部分作深入的探討,建議未來的研究可以參考 Tomilinson- Keasey(1990)所強調,在轉換資優的潛能至高度成就的情境設計上,必須考量智能技巧群組的發展、個人特質以及教師的價值觀,作為未來研究設計的指標。

    總之,如 Karnes(1987)所建議,鑑定過程最重要的一環是訓練老師注意學生的資優特質,加上設計或結構提供有潛力學生表現其能力的教室活動訓練,這

    種方式對低年級或年幼的學生尤其適合,但須有嚴謹的效度考核。從本研究的結

    果分析中可以得知,在資優兒童鑑定上,實作評量雖然可發揮多元指標的功能,

    而性別也未顯著影響兒童的表現,但是分數的概化性仍受學生特質、題目與評分

    者的交互作用的影響,這之間是學生的哪些特質因素、或題目的特性或評分者觀

    點影響了分數的高低,則仍有待效度檢核上再深入探究,方能做為有效的鑑定工

    具。

  • 資優兒童鑑定實作評量之效度初探

    325

    參考文獻

    呂金燮(民 88)。實作評量-理論。載於王文中、呂金燮、吳毓瑩、張郁雯、張淑惠著,教育測驗與評量:教室學習觀點(頁 169-204)。 台北:五南。

    呂金燮(民 89)。資優兒童問題解決能力實作評量之建構研究。特殊教育研究學刊,19,279-308。

    宋文菊(民 88)。國小學童在閱讀理解實作評量上的表現分析。國立台南師範學院國民教育所碩士論文(未出版)。

    李長柏(民 91)。國小數學簡單機率解題實作評量與後設認知之相關研究。國立台中師範學院教育測驗統計研究所碩士論文(未出版)。

    徐美英(民 89)。TIMSS 數學實作評量在薹灣之試用探討。國立台中師範學院教育測驗統計研究所碩士論文(未出版)。

    桂怡芬(民 85)。自然科實作評量的效度探討。國立台北師範學院國民教育研究所碩士論文(未出版)。

    陳聖泰(民 89)。國小自然科「電磁鐵」單元實作評量應用之研究。私立中原大學心理研究所碩士論文(未出版)。

    曾惠敏,鄒慧英(民 87)。國小分數比大小概念實作評量的發展及應用。測驗與輔導,149,3087-3094。

    詹元智(民 91)。國小數學科實作評量之效度探討。國立屏東師範學院教育心理與輔導學系碩士論文(未出版)。

    Ambrose, D. (1996). Panoramic scanning: Essential element of higher-order thought. Roeper Review, 18(4), 280-284.

    Baker, E. L. (1997). Model-based performance assessment. Theory into Practice, 36(4), 247-254

    Dunbar, S. B., Koretz, D. M., & Hoover, H. D. (1991). Quality control in the development and use of performance assessments. Applied Measurement in Education, 4, 289-304.

    Fazio, R. H. (1990). Multiple processes by which attitudes guide behavior: The MODE model as an integrative framework. In M. P. Zanna (Ed.), Advances in experimental social psychology (Vol. 23, pp.75-109). NY: Adademic Press.

    Fazio, R. H. (1995). Attitudes as object-evaluation associations: Determinants, consequences, and correlates of attitude accessibility. In R. E. Petty & J. A. Drosnick (Eds.), Attitude strength: Antecedents and consequences (pp.247-282). Mahwah, NJ: Lawrence Erlbaum.

    Feiring, C., Louis, B., Ukeje, I., Lewis, M., & Leong, P. (1997). Early identification of gifted minority kindergarten students in Newark, NJ. Gifted Child Quarterly, 41, 76-82.

    Frederiksen, J. R. & Collins, A. (1989). A systems approach to educational testing. Educational Researcher, 18(9), 27-32.

  • 國立臺北師範學院學報,第十七卷第一期 326

    Gardner, H. (1983). Frames of mind: The theory of multiple intelligence. NY: Basic Books, Inc.

    Gardner, H. (2000). Intelligence reframed: multiple intelligences for the 21st century. NY: Basic Books, Inc.

    Getzels, J. W., & Csikszentmihalyi, M. (1967). Scientific creativity. Science Journal, 3(9), 80-84.

    Glaser, R. (1991). Expertise and assessment. In M. C. Wittrock & E. L. Baker (Eds.), Testing and cognition (pp. 17-30). Englewood Cliffs, NJ: Prentice Hall.

    Hieronymus, A. N., & Hoover, H. D. (1987). Iowa tests of basic skills: Writing supplement teacher’s guide. Chicago: Riverside.

    Jiang, Y. H., Smith, P., & Nichols, P. (1997). Error sources influencing performance assessment reliability or generaliziability: A meta-analysis. Paper presented at the annual meeting of the American Educational Research Association, Chicago.

    Karnes, M. L. (1987). Bringing out Head Start talent: Findings from the field. Gifted Child Quarterly, 31(4), 174-179.

    Lane, S., Liu, M., Ankermann, R. D., & Stone, C. A. (1996). Generalizability and validity of a mathematics performance assessment. Journal of Educaitonal Measurement, 33(1), 71-92.

    Lazear, D. (1996). Multiple intelligence approaches to assessment: Solving the assessment conundrem. Tucson, AZ: Zephre Press.

    Linn, R. L., Baker, E. L., & Dunbar, S. B. (1991). Complex, performance-based assessment: Expectations and validation criteria. Educational Researcher, 20(8), 15-21.

    Lu,C.H., & Suen, H. K.(1995). Cognitive style and assessment approach. Journal of Educational Measurement, 32, 1-18.

    Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-104). NY: American Council on Education and Macmillan.

    Messick, S. (1994). The interplay of evidence and consequences in the validation of performance assessments. Educational Researcher, 23(2), 13-23.

    Renzulli, J. S., & Reis, S. M. (1986). The enrichment triad/revolving door model: A schoolwide plan for development of creative talent. In J. S. Renzulli (Ed.), Systems and models for developing programs for the gifted and talented (pp.216-266). Mansfield Center, CT: Creative Learning Press.

    Sarouphim, K. M. (2000). Internal structure of DISCOVER: A performance-based assessment. Journal for the Education of the Gifted, 23(3), 314-327.

    Schiever, S. W., & Maker, C. J. (1990). Enrichment and acceleration: An overview and new directions. In N. Colangelo & G. Davis (Eds.), Handbook of gifted education (pp.99-110). Boston: Allyn and Bacon.

  • 資優兒童鑑定實作評量之效度初探

    327

    Shavelson, R. J., Baxter, G. P., & Gao, X. (1993). Sampling variability of performance assessments. Journal of educational measurement, 30, 215-232.

    Shavelson, R. J., Baxter, G. P., & Pine, J. (1992). Performancer Assessment: Political Rhetoric and Measurement Reality. Educational Researcher, 21(4), 22.

    Snow, R. E. (1993). Construct validity and constructed-response tests. In R.E. Bennett & W.C. Ward (Eds.), Construction versus choice in cognitive measurement : Issues in constructed response, performance testing and portfolio assessment (pp.45-60). Hillsdale, NJ: Lawrence Erlbaum Associates.

    Sternberg, R. (1982). Nonentrenchment in the assessment of intellectual giftedness. Gifted Child Quarterly, 26, 63-67.

    Sternberg, R. J., & Lubart, T. I. (1995). Defying the crowd: Cultivating creativity in a culture of conformity. NY: The Free Press.

    Stiggins, R. J. (1989). Measuring Thinking Skills through Classroom Assessment. Journal of Educational Measurement , 26(3), 233-46.

    Tannenbaum, A. J. (1983). Gifted children: Psychological and educational perspectives. NY: MacMillan.

    Tannenbaum, A. J. (1996). The IQ controversy and the gifted. In C. P. Benbow & D. Lubinski (Eds.), Intellectual talent (pp.44-77). Baltimore: The John Hopkins University Press.

    Tomlinson-Keasey, C. (1990). Developing out intellectual resources for the 21st century: Educating the gifted. Journal of Educational Psychology, 82, 399-403.

    VanTassel-Baska, J. (1986). The use of aptitude tests for identifying the gifted: The talent search concept. Roeper Review, 8(3), 185-189.

    VanTassel-Baska, J. (1998). Excellence in educating gifted & talented learners. Denver, Colorado: Love Publishing Company.

    VanTassel-Baska, J., Johnson, D., & Avery, L. D. (2002). Using performance tasks in the identification of economically disadvantaged and minority gifted learners: Findings from project STAR. Gifted Child Quarterly, 46(2), 110-123.

    Wiggins, G. (1993). Assessment: Authenticity, context, and validity. Phi Delta Kappan, November, 200-214.

    Yussen, S. R. (1985). The role of metacognition in contemporary theories of cognitive development. In Yussen (Ed.), Metacognition, cognition, and human performance Vol.1 (pp.253-283). NY: Academic Press.

  • Journal of National Taipei Teachers College, Vol.17, No.1 (Mar. 2004) 299~328 NATIONAL TAIPEI TEACHERS COLLEGE 328

    The Validity of Performance Assessment on Identifying Gifted Children’s

    Problem-Solving Ability

    Chin-hsieh Lu*

    ABSTRACT The purpose of this study was to investigate the validity issues of performance

    assessment on identifying gifted children’s problem-solving ability. The three validity indicators are content quality, generalizability, and fairness. 42 children in two elementary schools participated in the study. Two types of the performance assessments were designed based on the directness to gifted curriculum: ill-structured work-sheet activity and dynamic thematic assessment activity. The analyses of the results provide partial evidences of content quality, generalizability, and fairness validity for performance assessment on identifying gifted children’s problem-solving ability.

    Key words: gifted children, performance assessment, validity, identification

    * Chin-hsieh Lu: Associate Professor, Department of Special Education, National Taipei

    Teachers College

    Chin-hsieh Lu*ABSTRACT