Hvilket afspejler sværhedsgraden af ​​testemnerne. Tests i teknologien til blokundervisning i matematik til gymnasieelever

Itr er en indikator til at måle letheden og sværhedsgraden af ​​et testspørgsmål (udsagn), idet der tages højde for ALLE korrekte svar givet af testdeltagerne.

Sværhedsgradsindeks Itr beregnes som følger:

Itr = (H+ L)/n x 100

hvor: N er antallet af rigtige svar i den "stærke" gruppe;

L- antallet af rigtige svar i den "svage" gruppe;

    samlet antal fag i begge grupper (1/3+1/3).

Et sværhedsindeks på 95 % indikerer, at for 95 % af forsøgspersonerne svaret til denne test var ikke et problem. En test med lave sværhedsgrader er enten for svær eller forkert designet. Den optimale værdi af sværhedsindekset er 50-60%, og acceptable udsving er fra 30 til 70%. Prøver med en ITR-værdi under 30 % og mere end 70 % udelukkes fra testprogrammet (eller tages ikke med i den endelige beregning af alle point for hele testprogrammet).

Kvaliteten af ​​hver test kan karakteriseres vha diskriminativitetsindeks (ID). Diskrimineringsindekset viser, hvor meget en given test kan skelne (diskriminere) mere uddannede specialister fra mindre uddannede:

ID = 2 x (H - L)/n

(notationer er de samme som ved beregning af Itr).

Det er blevet etableret eksperimentelt:

En ID-værdi på 0,35 og derover er en fremragende test.

0,25-0,34 er en god test

0,15-0,24 - kontroversiel test

under 0,15 - testen er dårligt designet og er underlagt udelukkelse fra "banken" af test.

Efter beregning af sværheds- og diskriminationsindekser revideres testprogrammet - test med utilfredsstillende Itr- og Id-indeks og frem for alt test med en Itr-værdi på mere end 70% (lette test) og Id mindre end 0,25 er udelukket fra det.

Test pålidelighed karakteriseret ved reproducerbarhed af resultater ved gentagne tests af samme gruppe af forsøgspersoner og, ligesom sværhedsgrad, bestemmes eksperimentelt.

Alle læringsmål kan betinget opdeles i tre typer: objektiv, logisk og psykologisk, som igen kan opdeles i grupper, der adskiller sig i mekanismen af ​​de mentale handlinger, de forårsager.

Fagtyper af problemer. Ved løsning af dem skal eleven navigere i et bestemt emnefelt, som kan "placere" ikke kun objekter (ting), men også mennesker, levende organismer samt deres modeller (tegninger, tegninger, diagrammer osv.) Orientering i emnefeltet er mentale handlinger, når en person, baseret på visse tegn kendt for ham, finder genstande i det, foretager en mental klassificering af dem for kun at operere med væsentlige genstande, der tillader ham at løse et problem.

Logiske opgavetyper . Det er opgaver, der kræver ræsonnement efter logikkens love for at løse dem, dvs. handlinger i sindet uden nogen afhængighed af materielle referenceobjekter. Ræsonnering har til formål at identificere, hvilke data der reelt er nødvendige for at løse problemer, hvilke data der bør elimineres som unødvendige, og hvilke nødvendige data der mangler i problemformuleringen. Du skal spørge din lærer eller finde dem selv.

Hvilke typer af logiske opgaver kan indgå i et sæt til undervisning i mentale handlinger?

Der er fire typer i alt:

    opgaver, hvor der ikke er unødvendige data, men også nogle nødvendige (A–B–), og endelig,

    opgaver, hvor der på grund af tilstedeværelsen af ​​unødvendige data ikke er alle nødvendige data tilgængelige (A – B+).

    Psykologiske typer af opgaver.

De kan fremprovokere fejlagtige handlinger fra elevens side, fordi væsentlige punkter, der er direkte relateret til at løse problemet, kan skjules bag uvæsentlige. Emnet kræves at have intelligens og vilje for ikke at falde for fristelsen til at gå den lette vej, samt omtanke i handlinger, forsigtighed i at analysere opgavens betingelser.

Psykologiske typer af opgaver kan skelnes af følgende karakteristika: a) tegnene på fænomenet, der præsenteres i opgaven, ligner dem, der karakteriserer det ønskede (påkrævede, relateret til denne aktivitet) fænomen, men faktisk er det noget andet (

ens, men ikke ens) b) de observerede tegn ligner det ønskede fænomen, og faktisk er det sådan

(og det ligner begge dele); c) de observerede tegn synes ikke klart at relatere til det fænomen, der søges, men ikke desto mindre viser det sig, at disse netop er dets tegn ( Ikke

det synes ellers); d) ud fra de visuelle tegn på et fænomen, der ikke helt ligner det, vi leder efter, kan vi konkludere, at de ikke tilhører ham

(det ligner det ikke, og det er ikke det samme). korrekt udførelse aktivitet, men ikke at gå glip af det, der er eksternt anderledes, men internt iboende i det. Derfor skal et sæt praktiske pædagogiske opgaver nødvendigvis indeholde data, der lokker eleven i en fælde, fremkalder en fejlagtig handling og giver falske signaler. Ved at vide dette skal eleven være ekstremt forsigtig, ikke falde for et smart forklædt trick og nøje følge de accepterede kriterier for vurdering af situationer.

Evnen til at løse problemer af en psykologisk type indikerer, at eleven har tilstrækkeligt og omfattende mestret aktiviteten, alle hans handlinger er meningsfulde og har en høj grad af bevidsthed.

Metodisk udvikling af en tematisk lektion omfatter følgende elementer:

    Emnetitel.

    Mål for lektionen.

    Samlet undervisningstid.

    Udstyr til lektionen (materiale og teknisk (udstyr, enheder), metodisk, informationsstøtte(liste over undervisningsborde, stande, læremidler, stoffer, programmer osv.).

    Planlæg (ifølge diagrammet ovenfor).

    Uddannelses- og træningsmaterialer.

    Kontrolmaterialer (opgaver til indledende og afsluttende kontrol af assimilering).

Sværhedsgradsindikator test opgave som den vigtigste dejdannende faktor.

Krasheninnikova Galina Gennadievna

Ph.D. ped. Sciences, Magadan-afdelingen af ​​det russiske statsuniversitet for humaniora

Et af de vigtigste kendetegn ved en testopgave er dens sværhedsgrad. Opgavens sværhedsgrad samt beredskabsniveauet for den testede er latente parametre, som ikke direkte kan observeres. For at evaluere disse parametre er det nødvendigt at bruge indikatorer, der er tæt forbundet med dem. Ved test af elevernes viden fungerer selve testopgaverne som en indikator. Opgaven opstår: at konvertere indikatorværdierne til værdierne af latente parametre. Der er forskellige tilgange til at løse dette problem. Klassisk og moderne teori test tilbyder deres egne metoder til at estimere latente parametre.

Det traditionelle mål for emnesværhedsgrad i klassisk testteori i mange år Tilbage er forholdet mellem antallet af rigtige svar til en given opgave og det samlede antal emner i gruppen. Jo lettere opgaven er, jo højere procentdel af dem, der fuldførte denne opgave.

Imidlertid denne definition bærer en semantisk unøjagtighed: en stigning numerisk værdi statistisk indikator indikerer et fald i opgavens sværhedsgrad og omvendt. Derfor i på det seneste Der gøres forsøg på at indføre nye sværhedsenheder. Den klassiske sværhedsgrad erstattes af den modsatte og repræsenterer andelen af ​​forkerte svar i gruppen af ​​emner, hvilket efter vores mening mere præcist afspejler betydningen af ​​parameteren "opgavesværhedsgrad".

Moderne testteori – Item Response Theory (IRT) – er baseret på teorien om latent strukturel analyse (LSA) skabt af P. Lazarsfeld. I IRT, i modsætning til den klassiske teori, behandles den latente parameter ikke som en konstant værdi, men som en kontinuerlig variabel. IRT-metoder kan klassificeres efter antallet af parametre, de bruger. De mest berømte er én-parameter-modellen af ​​G. Rasch og to- og tre-parameter-modeller af A. Birnbaum.

Georg Rasch placerede både testtagerens beredskabsniveau og opgavens sværhedsgrad på samme skala og introducerede en fælles måleenhed for dem - logit. En logit opgavesværhedsgrad er lig med naturlig logaritme forholdet mellem andelen af ​​forkerte svar til denne opgave og andelen af ​​rigtige svar.

På trods af at IRT på det seneste er blevet udbredt, har det alligevel mange ulemper. Især, når man tester uddannelsespræstationer, bemærkes betydelige uoverensstemmelser mellem beregnede værdier og empiriske data. En høj korrelation (ca. 0,9) mellem resultaterne opnået ved hjælp af Rasch-modellen og resultaterne opnået ved klassiske metoder er også blevet bevist. Denne kendsgerning giver os mulighed for, uden at gå på kompromis med nøjagtigheden af ​​beregninger, at bruge den klassiske testteoris metoder til at karakterisere sværhedsgraden af ​​testopgaver.

Selvom den klassiske formel til beregning af sværhedsgraden af ​​en opgave er ret praktisk til udførelse og efterfølgende fortolkning af de opnåede resultater, er den efter vores mening ikke uden en vis subjektivitet: opgavens sværhedsgrad afhænger direkte af prøven af ​​testpersoner. Lad os i denne forbindelse overveje et andet syn på vurdering af sværhedsgraden af ​​en testopgave, som, selvom den ikke er udbredt, er af en vis interesse for os.

For at nærme os essensen af ​​den latente parameter "vanskelighed", lad os vende os til klassificeringen af ​​niveauer af videnerhvervelse, der er vedtaget i pædagogisk litteratur. Man kan mærke en helt objektiv stigning i sværhedsgraden af ​​assimilering for hvert efterfølgende niveau af videnstilegnelse. Vi kan således konkludere, at der er en direkte sammenhæng mellem mestringsniveauer og sværhedsgrader af opgaver svarende til hvert mestringsniveau. Dette giver os mulighed for at identificere begreber som "sværhedsgrad" og "mestringsniveau" i forhold til testopgaver. Med udgangspunkt i klassificeringen af ​​V.P. Bespalko, vi skelner mellem fire sværhedsgrader: "studerende", typisk, heuristisk, kreativ.

I øjeblikket er ekspertmetoder meget brugt i pædagogikken. Derfor fortjener ekspertvurdering af sværhedsgraden af ​​testopgaver opmærksomhed som en anden mulighed for at vurdere sværhedsgradsindikatoren. For eksempel i arbejdet med A.P. Ivanov giver en beskrivelse af en sådan vurdering, når flere eksperter inden starten af ​​et testeksperiment bliver bedt om at vurdere sværhedsgraden af ​​opgaverne for alle testmuligheder i point. For at opnå en ekspertvurdering giver forfatteren en liste over otte faktorer med tilsvarende evalueringskriterier fra 1 til 5 point for hver.

I en veltilrettelagt test bør emnets sværhedsgrad ikke påvirkes af hverken formen eller tilrettelæggelsen af ​​testen. Sværhedsgradsindikatoren afhænger kun af testdeltagernes indhold og beredskabsniveau. Sandt nok er der en opfattelse af, at sværhedsgraden af ​​en opgave er påvirket af placeringen af ​​denne opgave i teststrukturen. I dette tilfælde anbefales det at bruge flere testmuligheder, der adskiller sig i rækkefølgen af ​​opgaver. V.S. Avanesov mener, at hovedprincippet for udvikling af indholdet af pædagogiske test er den stigende sværhedsgrad af testopgaver. Efter hans mening har opgaven først efter fastlæggelse af sværhedsgraden en chance for at blive en test. Indtil da er det kun en opgave i testform.

Inddragelse i testen stort antal opgaver af gennemsnitlig sværhedsgrad øger dens pålidelighed, men fører til et fald i indholdets validitet. En test bestående af lette opgaver, der tester minimal viden, kan ikke give en idé om det faktiske vidensniveau. Udvælgelsen af ​​testemner af høj sværhedsgrad kan være med til at øge motivationen i studier, men kan også påvirke bagsiden. Således forvrænger tests lavet fra vanskelige opgaver også testresultater. Derudover bør prøvens indhold variere afhængigt af elevgruppernes beredskabsniveau. Sværhedsgraden af ​​testen for svage elever adskiller sig markant fra sværhedsgraden af ​​testen, der tilbydes stærke elever.

Ifølge A. Anastasi og S. Urbina afhænger valget af opgavens sværhedsgrad af formålet med testen og af hvordan testindikatorerne er beregnet til at blive brugt. For fagorienterede tests bør opgavernes sværhedsgrad være på niveauet 0,8-0,9. Ved at bestemme dens informativitet ud fra en opgaves sværhedsgrad viser forfatterne, at den mest informative er en opgave med en gennemsnitlig sværhedsgrad på 0,50.

Dermed kan vi konkludere, at opgaver med en gennemsnitlig sværhedsgrad har den største differentieringsevne. Og hvis formålet med testen er at differentiere testpersoner og sammenlignende vurdere deres vidensniveau, så bør de enkleste og sværeste opgaver udelukkes fra testen. Hvis formålet med testen er at afgøre, om eleven i tilstrækkelig grad har mestret et bestemt sæt af kompetencer, der er nødvendige for at komme videre til næste uddannelsestrin, så kan den indeholde både de nemmeste og sværeste opgaver.

Bibliografi

1. Avanesov V.S. Brug af opgaver i testform i nye pædagogiske teknologier// Skoleteknologier. – 2007. – nr. 3. – S. 146–163.

2. Anastasi A., Urbina S. Psykologisk test. – Sankt Petersborg. : Peter, 2002. – 688 s.

3. Bespalko V.P. Komponenter pædagogisk teknologi. – M.: Pædagogik, 1989. – 192 s.

4. Ivanov A.P. Systematisering af viden i matematik i specialklasser ved hjælp af test. – M.: Fizmatkniga, 2004. – 416 s.

5. Ingenkamp K. Pædagogisk diagnostik. – M.: Pædagogik, 1991. – 240 s.

6. Kim V.S. Analyse af testresultater i processen med Rasch-måling // Pædagogiske målinger. – 2005. – nr. 4. – S. 39–45.

7. Rasch G. Probabilistiske modeller for nogle intelligens- og præstationstests. – Chicago & London, 1980. – 199 s.


Hvis en pædagogisk test kort defineres som et system af opgaver med ensartet stigende sværhedsgrad, så vil det blive klart, at opgavernes sværhedsgrad er den vigtigste, lad os sige, formative indikator for testen. Mange skoleledere mener, at deres lærere er i stand til at "finde op med" kort tid de kan lave så mange "tests", som de vil. Faktisk kan du finde på ret mange opgaver i testform. Og slet ikke prøver, men kun opgaver. De kan ikke indgå i rigtig test indtil målet for deres sværhedsgrad, såvel som andre karakteristika, bliver kendt. Sværhedsgraden er empirisk testet. Fra dette krav bliver det klart, at foreløbig empirisk testning af hver opgave er obligatorisk, før testning begynder. Under verifikationsprocessen opfylder mange opgaver ikke kravene til dem, og indgår derfor ikke i testen. Det første krav til testopgaver: I testen skal opgaverne variere i sværhedsgrad, hvilket følger af den tidligere givne definition af testen og det overvejede princip.

Den opmærksomme læser har formentlig allerede som ”umærkeligt” fanget forskellene i ordforrådet for de tre grundbegreber i teorien om pædagogiske målinger, der er introduceret her: begrebet en pædagogisk test, en opgave i testform og en testopgave. Kravene til den første af dem er allerede blevet diskuteret i artiklen "Definition af en pædagogisk test" (USh nr. 30, august 1999).

Det er bedre at introducere kravene til det andet koncept nu, i det mindste en kort liste over dem, for ikke at blive distraheret fra artiklens hovedemne. Følgende krav gælder for opgaver i testformen:

  • korthed;
  • fremstillingsevne;
  • korrekt form;
  • indholdets rigtighed
  • logisk udsagnsform;
  • de samme regler for vurdering af svar;
  • tilgængelighed bestemt sted for svar;
  • identiske instruktioner for alle emner;
  • korrekt placering af opgaveelementer;
  • tilstrækkeligheden af ​​instruktioner til opgavens form og indhold
Avanesov V.S. Fundamentals of the pedagogical theory of measurements // Pædagogiske målinger, 1, 2004. S. 17.

En detaljeret fortolkning af disse krav følger i de følgende artikler, men nu vil jeg gerne henlede læserens opmærksomhed på, at der ikke er krav om kendt sværhedsgrad af opgaven, mens et sådant krav stilles til testen og test opgave. Ud fra refleksion over dette og tidligere offentliggjort materiale kan der drages to konklusioner. Den første er, at testen ikke har plads til opgaver med ukendt sværhedsgrad. Og det andet er, at ikke alle foreslåede opgaver i testform kan blive til testopgaver: dette forskellige koncepter. I det første koncept er de væsentligste krav indhold og form. For testopgaver er der først og fremmest et krav om kendt sværhedsgrad, noget der tydeligvis ikke er påkrævet for opgaver i testform. Det kan gentages, at opgaver først har en chance for at blive test efter empirisk testning af målet for deres sværhedsgrad på typiske grupper af emner.

Indikatoren for sværhedsgraden af ​​testen og testelementerne er både meningsfuld og formel på samme tid. Meningsfuldt fordi god test sværhedsgraden kan kun afhænge af sværhedsgraden af ​​opgavernes indhold og af selve fagenes beredskabsniveau. Mens resultaterne i en dårlig test begynder at blive mærkbart påvirket af opgavernes form (især hvis den ikke er tilstrækkelig til indholdet), dårlig testorganisation, hvis der er muligheder for snyd og informationslækage. I denne henseende, den skadelige praksis med målrettet træning af studerende i en enkelt statslig eksamen. Den russiske undervisningsminister i 1907, I. Tolstoy, kaldte lærere, der var involveret i denne type arbejde, for "trænere". Men lærerne har mindst af alt skylden. Det defekte system med "ægge" er skylden, hvilket tilskynder til sådan fejlagtig praksis. Ligesom kontrol, så er uddannelse.

Den formelle komponent i sværhedsindikatoren opstår, når test betragtes som en konfrontationsproces mellem emnet og den opgave, han får tilbudt. Det er nyttigt at overveje det resulterende resultat som resultatet af en sådan konfrontation. Med en forenklet fortolkning af hvert tilfælde af præsentation af en opgave tages der ofte, men ikke nødvendigvis, to udfald i betragtning: fagets sejr med den korrekte løsning af opgaven, som han modtager et point for, eller nederlag, som han er for. givet nul point. Vurderingen af ​​resultatet af konfrontationen afhænger af forholdet mellem testpersonens vidensniveau og opgavens sværhedsgrad, af den valgte måleenhed for viden og af den forud vedtagne regel (konvention) - hvad betragtes som en "sejr" for testpersonen, og om uafgjort er acceptabelt, hvis vi taler i sportssprog.

Princippet om stigende sværhedsgrad anvendes ved præsentation af indholdet af mange lærebøger og manualer, især i de akademiske discipliner, der bygger på et kumulativt princip, hvilket betyder: kendskab til efterfølgende elementer i kurset afhænger eksplicit af viden om tidligere uddannelseselementer. Denne struktur er iboende i lærebøger om matematik, logik, fremmedsprog, statistik, tekniske og mange andre videnskaber. I dem bruges tidligere studerede begreber aktivt i efterfølgende emner. Derfor skal du kun studere sådanne discipliner fra begyndelsen og uden huller.

De fleste forfattere, især udenlandske, skelner ikke mellem begreberne "vanskelighed" og "kompleksitet". Mange testudviklere er de samme. Der er dog værker, hvor disse begreber er defineret forskelligt. For eksempel bemærker A.N. Zakharov og A.M. Matyushkin, at sværhedsgraden af ​​en læringsopgave ikke falder sammen med dens kompleksitet. Sværhedsgrad undervisningsmateriale er kendetegnet ved den reelle (objektive) intensitet af undervisningsopgaven og dens præsentationsform, og sværhedsgraden forudsætter altid en sammenhæng mellem det undervisningsmateriale, der skal mestres, med tidligere erhvervet undervisningsmateriale og elevernes intellektuelle formåen (1) .

L.N. Landa forklarede vanskeligheden ved den pædagogiske opgave med, at eleverne ofte ikke kender de operationer, der skal udføres for at finde en løsning. Hvis et system af operationer til at løse en bestemt klasse af problemer kaldes en løsningsmetode, så er vanskeligheden efter hans mening forbundet med uvidenhed om metoden, med uvidenhed om, hvordan man tænker i løsningsprocessen, hvordan og i hvilken rækkefølge man bør handle med problemets betingelser (2). De vanskeligheder, der opstår, forklares med, at læreren ofte forsøger at give viden om indholdet af det studerede og bekymrer sig meget mindre om, hvordan man tænker og ræsonnerer (ibid.). Denne fortolkning krydser ideen om, at kompleksiteten af ​​en opgave er relateret til antallet af operationer, der skal udføres for at opnå succes. Disse definitioner af vanskeligheder og kompleksitet er i høj grad psykologiske; de er nyttige til psykologisk analyse indhold af testopgaver.

I mange år var det traditionelle mål for hver opgaves sværhedsgrad andelen af ​​rigtige svar i en gruppe af emner, repræsenteret ved symbolet pj, hvor sænket j angiver nummeret på opgaven af ​​interesse (1, 2 osv.). ). For eksempel, hvis de korrekte svar fra emner til den tredje opgave i testen vurderes med et point, og forkerte - med nul, så kan værdien af ​​p3-indikatoren findes fra den elementære relation:

P3 = R3/N,
hvor R3 betyder antallet af rigtige svar på en given opgave, og N er det samlede antal emner i gruppen. Generel formel at beregne andelen af ​​rigtige svar til enhver opgave (j) har formen

Pj = Rj/N
Indikator pj. har længe været brugt som sværhedsgrad i såkaldt klassisk testteori (3). Senere blev den semantiske unøjagtighed indeholdt i det realiseret: trods alt indikerer en stigning i værdien af ​​pj ikke en stigning i sværhedsgraden, men tværtimod en stigning i lethed, hvis et sådant ord kan bruges. Derfor i de seneste år den modsatte statistik begyndte at blive forbundet med indikatoren for opgavens sværhedsgrad - andelen af ​​forkerte svar (qj). Denne andel beregnes ud fra forholdet mellem antallet af forkerte svar (Wj- fra det engelske ord Wrong - incorrect) og antallet af emner (N):

Det antages naturligvis, at pj + qj = 1. I klassisk testteori har man i mange år kun overvejet empiriske sværhedsindikatorer. I nye versioner af psykologiske og pædagogiske teorier om test er der blevet lagt mere vægt på karakteren af ​​mental aktivitet hos elever i processen med at udføre testopgaver forskellige former (4).

Indholdet af testen kan ikke kun være let, middel eller vanskelig. Her manifesteres den velkendte idé om afhængigheden af ​​resultaterne af den anvendte metode fuldt ud. Nemme testelementer giver kun eleverne udseende af viden, fordi de tester minimal viden. I denne henseende kan det bemærkes, at det føderale uddannelsesledelsesorgans fokus på at teste minimumsniveauet af viden ikke og ikke engang per definition giver en idé om det reelle vidensniveau, dvs. give den information, som samfundet og myndighederne længe har haft brug for. Det forvrænger testresultater og udvælgelse af åbenlyst vanskelige opgaver, som resulterer i, at flertallet af skolebørn ender med lave scores. Fokus på svære opgaver ses ofte som et middel til at øge motivationen til at lære. Dette middel har dog blandede virkninger. Vanskelige opgaver kan skubbe nogle mennesker til at studere, mens andre kan skubbe dem væk fra det. En sådan orientering forvrænger resultaterne og forringer i sidste ende kvaliteten af ​​den pædagogiske måling. Hvis testen er bygget udelukkende ud fra opgaver med stigende sværhedsgrad, så åbner dette vejen til skabelsen af ​​en af ​​de mest interessante måleskalaer - L. Gutman-skalaen.

Ved defineringen af ​​testen blev det allerede bemærket, at alle testopgaver vil jeg gerne understrege, uanset indholdet af emner, afsnit og akademiske discipliner, er arrangeret efter stigende sværhedsgrad. Den udbredte, indtil for nylig, anbefaling om at inkludere flere opgaver med gennemsnitlig sværhedsgrad i testen er berettiget ud fra synspunktet om at bestemme pålideligheden af ​​måling ved hjælp af de såkaldte formler. klassisk testteori. Metoderne til vurdering af test-reliabilitet, der findes i denne teori, resulterer i et fald i reliabilitet, når lette og vanskelige opgaver indgår i testen. Samtidig fører det at blive revet med af opgaver af kun moderat sværhedsgrad til en alvorlig deformation af prøvens indhold: sidstnævnte mister evnen til normalt at afspejle indholdet af den disciplin, der studeres, hvor der altid er let og vanskeligt materiale. I jagten på abstrakt teoretisk høj reliabilitet går testresultaternes indholdsmæssige validitet således tabt. Ønsket om at øge validiteten af ​​testresultater er ofte ledsaget af et fald i deres nøjagtighed. Dette fænomen er teoretisk kendt som paradokset for den amerikanske psykometriteoretiker F. Lord

Testes en svag gruppe elever, viser det sig, at de svære testpunkter simpelthen ikke virker, fordi ikke en eneste elev kan svare rigtigt på dem. Sådanne opgaver fjernes fra yderligere databehandling. De tilbydes ikke i adaptive kontrolsystemer. Testens indhold for svage elever vil adskille sig markant fra indholdet af testen for stærke elever. For sidstnævnte virker lette opgaver tværtimod ikke, da alle kyndige fag besvarer lette opgaver korrekt. Indholdet af en traditionel test varierer således væsentligt afhængigt af beredskabsniveauet hos de grupper af elever, hvis viden testen er rettet mod at måle.

Optimal kortlægning af indholdet af undervisningsmateriale til testopgaver af den nødvendige sværhedsgrad kræver mulighed for at vælge en passende form. Testens indhold kommer til udtryk i en af ​​fire hovedopgaver. Disse er: 1) opgaver med valg af et eller flere rigtige svar blandt de foreslåede; 2) opgaver i åben form, hvor forsøgspersonen selv udfylder besvarelsen, i den hertil afsatte plads; 3) opgaver til at etablere overholdelse og 4) opgaver at etablere korrekt rækkefølge handlinger.

Litteratur
  1. Zakharov A.I., Matyushkin A.M. Problemer adaptive systemer træning // Kybernetik og træningsproblemer. - M.: Fremskridt, 1970.- 389 s.
  2. Landa L.N. Algoritmisering i træning. M., Uddannelse, 1966
  3. Gulliksen H. Teori om mentale tests. N - Y. Wiley. 1950 - 486 s. og mange flere osv.
  4. Tatsuoka, K.K. Genstandskonstruktion og psykometriske modeller passende til konstrueret respons. Princeton, N-J, 1993. - 56 s.; Frederiksen, N., Mislevy R. J., Bejar I. J. (red). Testteori til en ny generation af tests. Lawrence Erlbaum Ass. Publ. 1993, Hillsdale, N-J, 404 s. osv.

Vi vil definere kompleksiteten og sværhedsgraden af ​​testopgaver ud fra definitionerne af ordene "kompleks" og "svær" fra forklarende ordbog Russisk sprog Ushakov.

Så "Kompleks - bestående af flere dele eller elementer, dannet gennem forbindelsen, tilføjelse af dele." Ud fra denne definition bliver det klart, hvordan kompleksiteten af ​​en testopgave kan bestemmes. For at gøre dette er det nok at analysere antallet af videnselementer, der dækker denne testopgave, og også at fastslå, hvor dybt testpersonen skal kende fagområdet, når han svarer for at besvare denne TK korrekt. Med andre ord kan vanskeligheder være relateret til antallet af mentale operationer, der skal udføres for at nå frem til det rigtige svar. Hvis forsøgspersonen ikke kender nogle af disse operationer, så vil opgaven være svær for ham, hvis han ved det, vil det være lettere.

"Svært - kræver en masse mental indsats, indsats, svært, tricky." Denne definition giver et af kriterierne for at vurdere sværhedsgraden af ​​en testopgave, nemlig hvor meget tid testpersonen skal bruge, så indsatsen, der sigter mod at finde det rigtige svar, ikke spildes. Sværhedsbegrebet kan være baseret på statistiske skøn, for eksempel, jo færre rigtige svar, jo sværere er opgaven.

I det generelle tilfælde bestemmes kompleksitet og sværhedsgrad af udvikleren af ​​specifikationen og angiver den subjektive værdi af, hvor svært det vil være for en testtager med et minimumsniveau af træning at løse en given testopgave på en bestemt tid.

Vi kan skelne mellem to typer kompleksitet og sværhedsgrad - teoretisk (a priori) og faktisk (a posteriori). A priori kompleksitet og sværhedsgrad bestemmes af eksperter før test. I processen med at teste en bank af testopgaver og beregne ved hjælp af visse metoder opnås en efterfølgende kompleksitet og sværhedsgrad.

Det skal tages i betragtning, at når man bruger en bank af testelementer under test, kan sværhedsgraden og kompleksiteten tilpasses i overensstemmelse med publikum, dvs. ved at indhente statistiske data om besvarelser af opgaver, er det muligt at bestemme, hvor let opgaven opfattes af testpersoner, og hvilke konklusioner der gives på den. I overensstemmelse hermed fastlægges testopgavens faktiske (posteriore) sværhedsgrad og kompleksitet.

Det vigtigste formål med de tekniske specifikationers kompleksitet og sværhedsgrad er brugen af ​​adaptive testalgoritmer. I mangel af information om kompleksitet og sværhedsgrad er det umuligt at tilpasse testopgaver til testpersonens aktuelle vidensniveau. Desuden, hvis sværhedsgraden og kompleksiteten er forkert specificeret, vil de adaptive testalgoritmer ikke fungere korrekt, og som et resultat vil der blive givet en vurdering af niveauet af uddannelsespræstationer, der har en stor fejl.

Som det fremgår af definitionen, kan sværhedsgraden af ​​en opgave beregnes ud fra den tid, der er afsat til at løse denne opgave for en testperson med et gennemsnitligt vidensniveau. For eksempel 30 sekunder eller 1 minut og 50 sekunder. Det er klart, at vanskeligheden i dette tilfælde vil afhænge af kompleksiteten, da jo mere kompleks den tekniske opgave er, jo mere tid det vil tage at løse den, jo sværere er den. På den anden side, jo sværere opgaven er, jo mere viden skal du have for at finde svaret, jo sværere bliver opgaven. Sværhedsgrad og kompleksitet afhænger således naturligvis af hinanden. Derfor bruges der i teorien om pædagogiske målinger som regel ét begreb - sværhedsgrad, i forhold til hvilket vi vil overveje mere detaljeret, hvordan sværhedsgraden af ​​en testopgave kan bestemmes.

  1. antallet af koncepter, der kræves for at løse de tekniske specifikationer;
  2. den tankegang, som den tekniske specifikation er rettet mod;
  3. TK form;
  4. dybden af ​​placeringen af ​​tekniske specifikationer i specifikationen;
  5. antal distraktorer og korrekte konklusioner;
  6. betydningsniveau.

Et begreb forstås yderligere som en bestemt konklusion (formel, regel, aksiom osv.), der giver os mulighed for at tilnærme os den rigtige beslutning TK. Jo flere trin du skal gennemføre for at få det rigtige svar, jo højere sværhedsgrad, jo sværere anses den tekniske opgave for. Sværhedsgraden skal naturligvis vurderes i forhold til antallet af begreber, der er involveret i at finde den rigtige løsning.

Lad os give følgende eksempler:

Nem testopgave

For at løse en sådan opgave behøver du ikke at udføre andre handlinger end at huske navnet på den berømte russiske digter, kendt af alle skolepensum. En nem (simpel) testopgave har ét koncept.

Mellem svær opgave

Rødder andengradsligning formula" src="http://hi-edu.ru/e-books/xbook688/files/17-1.gif" border="0" align="absmiddle" alt="(Svar: 1 og -1).

Opgaven er svær

En ligning, hvor en af ​​rødderne er lig med formlen" src="http://hi-edu.ru/e-books/xbook688/files/17-3.gif" border="0" align="absmiddle " alt="( !LANG:)

markør">

  • rum og tid;
  • maksimering af det positive og minimering af det negative;
  • induktion-deduktion;
  • årsag-og-virkning (analytisk, positiv, deduktiv) tænkning;
  • dialektisk-algoritmisk (syntetisk, negativ, deduktiv) tænkning;
  • holografisk eller fuldt beskrivende tænkning;
  • vortex eller synergi.
  • Hver testdeltager har sin egen subjektive opfattelsesverden. Det er dannet ud fra det, en person er mest opmærksom på. Følgelig, hvis testpersonen først er fast besluttet på at opfatte testproceduren som noget vanskeligt, uopnåeligt og psykologisk traumatisk, så kan selv den simpleste testopgave blive opfattet af ham som en meget vanskelig opgave. Hvis fagene i første omgang er sat op til at tro, at dette er en ret objektiv procedure til at kontrollere, hvad de kunne undervise, og hvad der stadig skal arbejdes på, og de selv ville være interesserede i at finde ud af, hvad de lærte godt, så er holdningen over for selve proceduren vil derfor være positiv, og sværhedsgraden af ​​opgaven vil blive opfattet mere objektivt af testpersonen.

    Lad os forsøge at identificere de måder at tænke på, som sværhedsgraden ved testopgaver dannes i forhold til.

    Teknisk opgave med simpel sværhedsgrad:

    • "identifikation" af et eller andet objekt eller verifikation af "viden-kendskab";
    • at vælge én svarmulighed blandt mange ved at bruge viden om kun ét begreb;
    • øvelse åben type, rettet mod at identificere viden om definitionen af ​​et enstavelsesgrundbegreb.

    TK på mellem sværhedsgrad:

    • er rettet mod at anvende tidligere erhvervet viden i typiske situationer (dvs. i de situationer, som emnet er bekendt med) eller at teste "viden om kopigengivelse." TK af denne sværhedsgrad bør omfatte TK rettet mod tænkning forbundet med udsagn af en konjunktiv eller disjunktiv type eller TK med flere koncepter til at vælge en undergruppe af korrekte muligheder fra et givet sæt konklusioner. I nogle tilfælde kan tekniske specifikationer på denne sværhedsgrad omfatte tekniske specifikationer for overholdelse og orden.

    Svære tekniske opgaver:

    • er rettet mod at anvende erhvervet viden og færdigheder under ikke-standardiserede forhold (dvs. under forhold, der tidligere var ukendte for emnet) eller at teste "viden om færdigheder og anvendelse." Opgaver af denne sværhedsgrad omfatter opgaver, der fremkalder konklusioner formuleret i form af udsagn af implikativ type. Sådanne opgaver kræver brug af ræsonnement i form af deduktiv, induktiv slutning og analogi, og der kræves en sekvens af slutninger (flere begreber) for at opnå et endeligt svar.

    Det skal også tages i betragtning, at sværhedsgraden af ​​teknisk opgave kan bestemmes under hensyntagen til testbedømmelsens form. Her skal der tages højde for antallet af begreber, pga hvis det for at vælge det rigtige svar på en opgave er nødvendigt at have noget yderligere viden eller løse problemet, så øges opgavens sværhedsgrad. Den enkleste form for testopgaver anses for at være lukket, når testpersonen bliver bedt om at vælge den eller de korrekte muligheder blandt de foreslåede. Det sværeste anses for at være åben form, fordi for at give den korrekte konklusion skal du forstå betydningen af ​​testdommen og vælge den ønskede definition fra flere eksisterende. Rækkefølge og korrespondanceskemaer refererer oftest til opgaver med en gennemsnitlig sværhedsgrad.

    Sværhedsgrad kan tildeles ud fra, om den tekniske specifikation hører til testspecifikationens "dybde"-niveau. Hvis den tekniske specifikation afslører det laveste niveau af testspecifikationshierarkiet (for eksempel et eller andet "koncept"), vil en sådan opgave være let. At tilhøre de midterste niveauer af testspecifikationshierarkiet (for eksempel et "emne" eller "underemne") øger vanskeligheden. Sådanne tekniske opgaver kan betragtes som tekniske opgaver med gennemsnitlig sværhedsgrad. Endelig kan TK relateret til det øverste niveau, roden af ​​hierarkitræet (for eksempel til "Sektion", "Kapitel") anses for at være vanskelig. Når vi overvejer vanskeligheden under hensyntagen til specifikationen af ​​banken af ​​testelementer, vil vi derfor antage, at opgaven med at overveje en mere specifik sag har mindre vanskeligheder end den opgave, der overvejes til et mere generelt emne.

    At øge antallet af distraktorer og korrekte konklusioner påvirker opgavens sværhedsgrad. Hvordan større antal distraktorer og korrekte konklusioner, jo længere tid kræver tankeprocessen en korrekt konklusion. Tiden til at reagere øges. Jo sværere opgaven anses for.

    Sværhedsgraden af ​​en opgave kan bestemmes ud fra, om TK'en hører til hoved- og yderligere materialer (TK'ens betydningsniveau). Det er klart, at der for hver disciplin er et bestemt sæt af grundlæggende begreber, for eksempel dem, der er foreskrevet i statens uddannelsesstandard, og der er begreber relateret til yderligere materiale, det vil sige materiale, der kun gives til de mest succesrige grupper af studerende. Derudover er det acceptabelt at give omkring 10% af hele kursusmaterialet efter lærerens skøn. Derfor, hvis TK afslører et grundlæggende koncept, kan en sådan opgave betragtes som simpel, men hvis TK tilhører yderligere materiale (dvs. for at give den korrekte konklusion skal du have yderligere viden og operere med flere koncepter), så kan det anses for svært.

    Når man skal bestemme sværhedsgraden af ​​testmaterialer, er det vigtigt at kunne sammenligne de givne faktorer for forskellige cases og tage højde for alle fagets egenskaber.

    For at forenkle opgaven med at drage konklusioner om sværhedsgraden af ​​testopgaver, vil vi bestemme kvantitative indikatorer for kvalitative faktorer.

    Lad os for eksempel tage 2 opgaver fra banken, for hvilke følgende sværhedsgrader er defineret:

    • opgave nr. 1 er teoretisk tolket som svær;
    • opgave nr. 2 - teoretisk tolket som middel svær.

    En prøve på 10 grupper af forsøgspersoner, der blev testet i samme disciplin, tages i betragtning. Lad os som et eksempel tage den gennemsnitlige score opnået som et resultat af test af emner i en gruppe på de to foreslåede opgaver.

    Ny side 1

    Grupper Point for 1. TOR Point for 2. TK
    № 1 32,1 45
    № 2 20 65
    № 3 55 34
    № 4 70 58
    № 5 64,2 40
    № 6 45 36
    № 7 46,1 67
    № 8 80 54
    № 9 72,3 44
    № 10 46,7 53

    Vælg for at vurdere sværhedsgraden af ​​en testopgave forskellige skalaer. Lad os tage følgende skala, som vi a priori (teoretisk) vil betragte som en referenceskala. Lad W være den score, som forsøgspersonerne scorer på den i-te opgave under testen. Så kan 5-trinsskalaen for fordeling af procenter (baseret på 100%) og karakterer være som følger:

    formula" src="http://hi-edu.ru/e-books/xbook688/files/23.gif" border="0" align="absmiddle" alt=".gif" border="0" align="absmiddle" alt="

    hvor mærket ">n er antallet af evalueringskoefficienter på den valgte skala (f.eks. "utilfredsstillende", "tilfredsstillende", "god", "fremragende"). Således er forskellen mellem vurderingerne i dette eksempel svarende til 15 %.

    Skalaerne for denne prøve ville se sådan ud:

    På baggrund af de beregnede standarder vil vi foretage en endelig pointberegning, hvorved vi opnår, at:

    • "let" - denne opgave var for 30% af fagene;
    • "middel svær" - for 50% af fagene;
    • "svært" - for 20% af fagene.

    Lad os beregne den gennemsnitlige værdi opnået fra de tekniske specifikationer af ti grupper til den anden opgave:

    hvilket svarer til den gennemsnitlige sværhedsgrad på referenceskalaen (a priori).

    I første omgang blev denne opgave af testskribenten tolket som af middel sværhedsgrad. Følgelig vil a priori-værdien af ​​opgavens sværhedsgrad i dette tilfælde falde sammen med a posteriori-værdien, som vi vil betragte som sand for denne prøve. Du kan også beregne den bageste skala for den anden opgave.