Noe som gjenspeiler vanskelighetsgraden til testelementene. Tester i teknologien for blokkundervisning i matematikk til elever på videregående skole

Itr er en indikator for å måle lettheten og vanskeligheten til et testspørsmål (utsagn), som tar i betraktning ALLE riktige svar gitt av testtakerne.

Vanskelighetsindeks Itr beregnes som følger:

Itr = (H+ L)/n x 100

hvor: N er antall riktige svar i den "sterke" gruppen;

L- antall riktige svar i den "svake" gruppen;

    totalt antall fag i begge grupper (1/3+1/3).

En vanskelighetsindeks på 95 % indikerer at for 95 % av fagene svaret på denne testen var ikke et problem. En test med lav vanskelighetsgrad er enten for vanskelig eller feil utformet. Den optimale verdien av vanskelighetsindeksen er 50-60%, og akseptable svingninger er fra 30 til 70%. Tester med ITR-verdi under 30 % og mer enn 70 % ekskluderes fra testprogrammet (eller tas ikke med i den endelige beregningen av alle poeng for hele testprogrammet).

Kvaliteten på hver test kan karakteriseres ved hjelp av diskriminativitetsindeks (ID). Diskrimineringsindeksen viser hvor mye en gitt test kan skille (diskriminere) mer trente spesialister fra mindre trente:

ID = 2 x (H - L)/n

(notasjoner er de samme som for beregning av Itr).

Det har blitt etablert eksperimentelt:

En ID-verdi på 0,35 og over er en utmerket test.

0,25-0,34 er en god test

0,15-0,24 - kontroversiell test

under 0,15 - testen er dårlig utformet og er underlagt utelukkelse fra "banken" av tester.

Etter å ha beregnet vanskelighets- og diskrimineringsindeksene, revideres testprogrammet - tester med utilfredsstillende Itr- og Id-indekser og fremfor alt tester med en Itr-verdi på mer enn 70 % (lette tester) og Id mindre enn 0,25 er ekskludert fra det.

Test pålitelighet karakterisert ved reproduserbarhet av resultater ved gjentatt testing av samme gruppe av forsøkspersoner og, som vanskelighetsgrad, bestemmes eksperimentelt.

Alle Læringsmål kan deles betinget inn i tre typer: objektiv, logisk og psykologisk, som igjen kan deles inn i grupper som er forskjellige i mekanismen til de mentale handlingene de forårsaker.

Fagtyper av problemer. Når de løser dem, må studenten navigere i et bestemt fagfelt, som kan "plassere" ikke bare objekter (ting), men også mennesker, levende organismer, samt deres modeller (tegninger, tegninger, diagrammer, etc.) Orientering i emnet er et felt mentale handlinger når en person, basert på visse tegn kjent for ham, finner gjenstander i det, gjør en mental klassifisering av dem for kun å operere med betydelige gjenstander som lar ham løse et problem.

Logiske oppgavetyper . Dette er oppgaver som krever resonnement etter logikkens lover for å løse dem, d.v.s. handlinger i sinnet, uten avhengighet av materielle referanseobjekter. Resonnement tar sikte på å identifisere hvilke data som virkelig trengs for å løse problemer, hvilke data som må elimineres som unødvendige, og hvilke nødvendige data som mangler i problemformuleringen. Du må spørre læreren din eller finne dem selv.

Hvilke typer logiske oppgaver kan inkluderes i et sett for undervisning i mentale handlinger?

Det er fire typer totalt:

    oppgaver der det ikke er unødvendige data, men også noen nødvendige (A–B–), og til slutt,

    oppgaver der, på grunn av tilstedeværelsen av unødvendige data, ikke alle nødvendige data er tilgjengelige (A – B+).

    Psykologiske typer oppgaver.

De kan fremprovosere feilhandlinger fra eleven, fordi vesentlige punkter som er direkte relatert til å løse problemet kan skjules bak uviktige. Faget er pålagt å ha intelligens og vilje for ikke å falle for fristelsen til å ta den enkle veien, samt omtenksomhet i handlinger, klokskap i å analysere betingelsene for oppgaven.

Psykologiske typer oppgaver kan skilles ut av følgende egenskaper: a) tegnene på fenomenet som presenteres i oppgaven ligner de som karakteriserer det ønskede (påkrevde, relatert til denne aktiviteten) fenomenet, men faktisk er det noe annet (

lik, men ikke lik) b) de observerte tegnene ligner det ønskede fenomenet, og faktisk er det slik

(og det ser ut som begge deler); c) de observerte tegnene ser ikke ut til å tydelig forholde seg til fenomenet som søkes, men likevel viser det seg at dette er nettopp dets tegn ( Ikke

det ser ut til, ellers); d) fra de visuelle tegnene på et fenomen som ikke helt ligner det vi leter etter, kan vi konkludere med at de ikke tilhører ham

(det ser ikke ut som det og det er ikke det samme). riktig utførelse aktivitet, men ikke å gå glipp av det som er eksternt annerledes, men internt iboende i det. Derfor må et sett med praktiske pedagogiske oppgaver nødvendigvis inneholde data som lokker eleven i en felle, provoserer frem en feilaktig handling og gir falske signaler. Når han vet dette, må studenten være ekstremt forsiktig, ikke falle for et smart forkledd triks, og strengt følge de aksepterte kriteriene for å vurdere situasjoner.

Evnen til å løse problemer av en psykologisk type indikerer at studenten har tilstrekkelig og omfattende mestret aktiviteten, alle handlingene hans er meningsfulle og har en høy grad av bevissthet.

Metodisk utvikling av en tematisk leksjon inkluderer følgende elementer:

    Emne tittel.

    Mål for leksjonen.

    Samlet timetid.

    Utstyr til leksjonen (materiell og teknisk (utstyr, enheter), metodisk, Informasjonsstøtte(liste over pedagogiske tabeller, stands, læremidler, narkotika, programmer osv.).

    Planlegg (i henhold til diagrammet ovenfor).

    Utdannings- og opplæringsmateriell.

    Kontrollmateriell (oppgaver for innledende og endelig kontroll av assimilering).

Vanskelighetsindikator testoppgave som den viktigste deigdannende faktoren.

Krasheninnikova Galina Gennadievna

Ph.D. ped. Sciences, Magadan-grenen av det russiske statsuniversitetet for humaniora

En av hovedkarakteristikkene til en testoppgave er vanskeligheten. Vanskelighetsgraden til oppgaven, samt beredskapsnivået til personen som testes, er latente parametere som ikke kan observeres direkte. For å evaluere disse parameterne er det nødvendig å bruke indikatorer som er nært knyttet til dem. Ved testing av elevenes kunnskap fungerer selve testoppgavene som en indikator. Oppgaven oppstår: å konvertere indikatorverdiene til verdiene til latente parametere. Det finnes ulike tilnærminger til å løse dette problemet. Klassisk og moderne teori testing tilbyr sine egne metoder for å estimere latente parametere.

Det tradisjonelle målet for gjenstandsvanskelighet i klassisk testteori lange år Det som gjenstår er forholdet mellom antall riktige svar på en gitt oppgave og totalt antall emner i gruppen. Jo enklere oppgaven er, jo høyere prosentandel av de som fullførte denne oppgaven.

derimot denne definisjonen bærer på en semantisk unøyaktighet: en økning numerisk verdi statistisk indikator indikerer en reduksjon i oppgavens vanskelighetsgrad, og omvendt. Derfor i I det siste Det gjøres forsøk på å innføre nye vanskelighetsgrader. Det klassiske vanskelighetsmålet erstattes av det motsatte og representerer andelen feil svar i faggruppen, som etter vår mening mer nøyaktig gjenspeiler betydningen av parameteren "oppgavevanskelighet".

Moderne testteori – Item Response Theory (IRT) – er basert på teorien om latent strukturell analyse (LSA) laget av P. Lazarsfeld. I IRT, i motsetning til den klassiske teorien, behandles den latente parameteren ikke som en konstant verdi, men som en kontinuerlig variabel. IRT-metoder kan klassifiseres i henhold til antall parametere de bruker. De mest kjente er én-parameter-modellen til G. Rasch og to- og tre-parameter-modellene til A. Birnbaum.

Georg Rasch plasserte både beredskapsnivået til testtakeren og vanskelighetsgraden til oppgaven på samme skala, og introduserte en felles måleenhet for dem - logiten. En logit av oppgavevanskelighet er lik naturlig logaritme forholdet mellom andelen feil svar på denne oppgaven og andelen riktige svar.

Til tross for at IRT nylig har blitt utbredt, har det likevel mange ulemper. Spesielt når du tester utdanningsprestasjoner, noteres det betydelige avvik mellom beregnede verdier og empiriske data. En høy korrelasjon (ca. 0,9) mellom resultatene oppnådd ved bruk av Rasch-modellen og resultatene oppnådd med klassiske metoder er også påvist. Dette faktum tillater oss, uten å gå på bekostning av nøyaktigheten av beregninger, å bruke metodene til klassisk testteori for å karakterisere vanskelighetsgraden av testoppgaver.

Selv om den klassiske formelen for å beregne vanskeligheten til en oppgave er ganske praktisk for utførelse og påfølgende tolkning av resultatene som er oppnådd, er den etter vår mening ikke uten en viss subjektivitet: vanskeligheten med oppgaven avhenger direkte av utvalget av testpersoner. La oss i denne forbindelse vurdere et annet syn på å vurdere vanskelighetsgraden til en testoppgave, som, selv om den ikke er utbredt, er av interesse for oss.

For å nærme oss essensen av den latente parameteren "vanskelighet", la oss gå til klassifiseringen av nivåer av kunnskapsinnhenting tatt i bruk i pedagogisk litteratur. Man kan merke en helt objektiv økning i vanskelighetsgraden for assimilering for hvert påfølgende nivå av kunnskapsinnhenting. Dermed kan vi konkludere med at det er en direkte sammenheng mellom mestringsnivåene og vanskelighetsgradene på oppgaver som tilsvarer hvert mestringsnivå. Dette gjør at vi kan identifisere begreper som «vanskelighetsgrad» og «mestringsnivå» i forhold til testoppgaver. Med utgangspunkt i klassifiseringen av V.P. Bespalko, vi skiller fire vanskelighetsgrader: "student", typisk, heuristisk, kreativ.

For tiden er ekspertmetoder mye brukt i pedagogikk. Derfor fortjener ekspertvurdering av vanskelighetsgraden til testoppgaver oppmerksomhet som et annet alternativ for å vurdere vanskelighetsindikatoren. For eksempel i arbeidet til A.P. Ivanov gir en beskrivelse av en slik vurdering, når flere eksperter før starten av et testeksperiment blir bedt om å vurdere vanskelighetsgraden av oppgavene til alle testalternativer i poeng. For å få en ekspertvurdering gir forfatteren en liste med åtte faktorer med tilsvarende vurderingskriterier fra 1 til 5 poeng for hver.

I en godt utformet test bør ikke vanskelighetsgraden av gjenstander påvirkes av verken formen eller organiseringen av testingen. Vanskelighetsindikatoren avhenger kun av innholdet og beredskapsnivået til testpersonene. Det er riktignok en oppfatning om at vanskelighetsgraden til en oppgave påvirkes av plasseringen av denne oppgaven i teststrukturen. I dette tilfellet anbefales det å bruke flere testalternativer som er forskjellige i rekkefølgen av oppgaver. V.S. Avanesov mener at hovedprinsippet for å utvikle innholdet i pedagogiske prøver er den økende vanskeligheten med testoppgaver. Etter hans mening, først etter å ha bestemt vanskelighetsgraden, har oppgaven en sjanse til å bli en test. Inntil da forblir det bare en oppgave i testform.

Inkludering i testen stort nummer tildelinger av gjennomsnittlig vanskelighetsgrad øker dens pålitelighet, men fører til en reduksjon i innholdsvaliditeten. En test som består av enkle oppgaver som tester minimal kunnskap kan ikke gi en ide om det faktiske kunnskapsnivået. Valg av prøveoppgaver av høy vanskelighetsgrad kan bidra til å øke motivasjonen i studier, men kan også påvirke motsatt side. Dermed forvrenger tester laget fra vanskelige oppgaver også testresultater. I tillegg bør prøvens innhold variere avhengig av beredskapsnivået til elevgruppene. Prøvens vanskelighetsgrad for svake elever skiller seg markant fra vanskelighetsgraden på testen som tilbys sterke elever.

Ifølge A. Anastasi og S. Urbina avhenger valg av vanskelighetsgrad på oppgaven av formålet med testen og av hvordan testindikatorene er tenkt brukt. For fagrettede prøver bør vanskelighetsgraden på oppgavene ligge på nivået 0,8-0,9. Ved å bestemme dens informativitet ut fra vanskelighetsgraden til en oppgave, viser forfatterne at den mest informative er en oppgave med en gjennomsnittlig vanskelighetsgrad på 0,50.

Dermed kan vi konkludere med at oppgaver med gjennomsnittlig vanskelighetsgrad har størst differensieringsevne. Og hvis formålet med testing er å skille testtakere og sammenligne deres kunnskapsnivå, bør de enkleste og vanskeligste oppgavene ekskluderes fra testen. Hvis formålet med testen er å finne ut om studenten har tilstrekkelig mestret et visst sett med kompetanse som er nødvendig for å gå videre til neste trinn i opplæringen, kan den inneholde både de enkleste og vanskeligste oppgavene.

Bibliografi

1. Avanesov V.S. Bruke oppgaver i testform i nye pedagogiske teknologier// Skoleteknologier. – 2007. – nr. 3. – S. 146–163.

2. Anastasi A., Urbina S. Psykologisk testing. - St. Petersburg. : Peter, 2002. – 688 s.

3. Bespalko V.P. Komponenter pedagogisk teknologi. – M.: Pedagogikk, 1989. – 192 s.

4. Ivanov A.P. Systematisering av kunnskap i matematikk i spesialiserte klasser ved hjelp av prøver. – M.: Fizmatkniga, 2004. – 416 s.

5. Ingenkamp K. Pedagogisk diagnostikk. – M.: Pedagogikk, 1991. – 240 s.

6. Kim V.S. Analyse av testresultater i prosessen med Rasch-måling // Pedagogiske målinger. – 2005. – nr. 4. – S. 39–45.

7. Rasch G. Probabilistiske modeller for noen intelligens- og prestasjonstester. – Chicago & London, 1980. – 199 s.


Hvis en pedagogisk test kort defineres som et system av oppgaver med jevnt økende vanskelighetsgrad, vil det bli klart at vanskeligheten til oppgavene er den viktigste, la oss si, formative indikatoren for testen. Mange skoleledere tror at lærerne deres er i stand til å "finne på" en kort tid de kan gjøre så mange "tester" de vil. Faktisk kan du finne på ganske mange oppgaver i testform. Og ikke prøver i det hele tatt, men bare oppgaver. De kan ikke inkluderes i ekte test inntil målet for deres vanskelighetsgrad, så vel som andre egenskaper, blir kjent. Vanskelighetsmålet er empirisk testet. Fra dette kravet blir det klart at foreløpig empirisk testing av hver oppgave er obligatorisk før testing starter. Under verifiseringsprosessen er det mange oppgaver som ikke oppfyller kravene til dem, og er derfor ikke inkludert i testen. Det første kravet til testoppgaver: i testen skal oppgavene variere i vanskelighetsgrad, noe som følger av den tidligere gitte definisjonen av testen og prinsippet som vurderes.

Den oppmerksomme leser har nok allerede fanget forskjellene i ordforrådet til de tre grunnleggende begrepene i teorien om pedagogiske målinger som er introdusert her, som om «umerkelig»: begrepet en pedagogisk prøve, en oppgave i prøveform og en prøveoppgave. Kravene til den første av dem er allerede diskutert i artikkelen "Definisjon av en pedagogisk prøve" (USh nr. 30, august 1999).

Det er bedre å introdusere kravene til det andre konseptet nå, i det minste en kort liste over dem, for ikke å bli distrahert fra hovedemnet i artikkelen. Følgende krav gjelder for oppgaver i prøveskjemaet:

  • korthet;
  • produksjonsevne;
  • korrekt form;
  • riktigheten av innholdet
  • logisk utsagnsform;
  • de samme reglene for å vurdere svar;
  • Tilgjengelighet bestemt sted for svar;
  • identiske instruksjoner for alle fag;
  • riktig plassering av oppgaveelementer;
  • tilstrekkelige instruksjoner til oppgavens form og innhold
Avanesov V.S. Fundamentals of the pedagogical theory of measurements // Pedagogical Measurements, 1, 2004. S. 17.

En detaljert tolkning av disse kravene vil følge i de følgende artiklene, men nå vil jeg gjøre leseren oppmerksom på at det ikke stilles krav om kjent vanskelighetsgrad ved oppgaven, mens et slikt krav stilles til prøven og testoppgave. Fra refleksjon over dette og tidligere publisert materiale kan det trekkes to konklusjoner. Den første er at testen ikke har plass til oppgaver med ukjent vanskelighetsgrad. Og det andre er at ikke alle foreslåtte oppgaver i testform kan bli testoppgaver: dette ulike konsepter. I det første konseptet er de viktigste kravene innhold og form. For testoppgaver er det for det første et krav om kjent vanskelighetsgrad, noe som tydeligvis ikke kreves for oppgaver i testform. Det kan gjentas at oppgaver har en sjanse til å bli tester først etter empirisk testing av målet på deres vanskelighetsgrad på typiske grupper av fag.

Indikatoren for vanskelighetsgraden til testen og testelementene er meningsfull og formell på samme tid. Meningsfull fordi god test vanskeligheten kan kun avhenge av vanskelighetsgraden av innholdet i oppgavene og av beredskapsnivået til fagene selv. Mens i en dårlig test begynner resultatene å bli merkbart påvirket av oppgavenes form (spesielt hvis den ikke er tilstrekkelig til innholdet), dårlig testorganisering, om det er muligheter for juks og informasjonslekkasje. I denne forbindelse, den skadelige praksisen med målrettet opplæring av studenter i en enkelt statlig eksamen. Den russiske utdanningsministeren i 1907, I. Tolstoj, kalte lærere som var involvert i denne typen arbeid for «trenere». Men lærerne har minst av alt skylden. Det defekte systemet med "egg" er skylden, som oppmuntrer til slike feilaktige fremgangsmåter. Som kontroll, er utdanning også.

Den formelle komponenten i vanskelighetsindikatoren oppstår når testing betraktes som en prosess med konfrontasjon mellom emnet og oppgaven som tilbys ham. Det er nyttig å vurdere det resulterende resultatet som et resultat av en slik konfrontasjon. Med en forenklet tolkning av hvert tilfelle av presentasjon av en oppgave, blir to utfall ofte, men ikke nødvendigvis, vurdert: seier til faget med riktig løsning av oppgaven, som han mottar ett poeng for, eller nederlag, som han er for. gitt null poeng. Vurderingen av resultatet av konfrontasjonen avhenger av forholdet mellom kunnskapsnivået til testpersonen og vanskelighetsgraden for oppgaven, av den valgte måleenheten for kunnskap og av den forhåndsvedtatte regelen (konvensjonen) - hva regnes som en "seier" for testpersonen, og om uavgjort er akseptabelt, hvis vi snakker på idrettens språk.

Prinsippet om økende vanskelighetsgrad brukes når innholdet i mange lærebøker og manualer presenteres, spesielt i de akademiske disiplinene som er bygget på et kumulativt prinsipp, som betyr: kunnskap om påfølgende elementer i kurset avhenger eksplisitt av kunnskap om tidligere utdanningselementer. Denne strukturen er iboende i lærebøker om matematikk, logikk, fremmedspråk, statistikk, teknisk og mange andre vitenskaper. I dem brukes tidligere studerte konsepter aktivt i påfølgende emner. Derfor må du studere slike disipliner bare helt fra begynnelsen, og uten hull.

De fleste forfattere, spesielt utenlandske, skiller ikke mellom begrepene "vanskelighet" og "kompleksitet". Mange testutviklere er de samme. Imidlertid er det verk der disse begrepene er definert annerledes. For eksempel bemerker A.N. Zakharov og A.M. Matyushkin at vanskelighetsgraden til en læringsoppgave ikke sammenfaller med dens kompleksitet. Vanskelighetsgrad undervisningsmateriell er preget av den reelle (objektive) intensiteten av utdanningsoppgaven og formen for dens presentasjon, og vanskelighetsgraden innebærer alltid en korrelasjon av utdanningsmaterialet som skal mestres med tidligere ervervet undervisningsmateriale og studentenes intellektuelle evner (1) .

L.N. Landa forklarte vanskeligheten med den pedagogiske oppgaven med at elevene ofte ikke vet hvilke operasjoner som må utføres for å finne en løsning. Hvis et operasjonssystem for å løse en viss klasse av problemer kalles en løsningsmetode, er etter hans mening vanskeligheten forbundet med uvitenhet om metoden, med uvitenhet om hvordan man tenker i løsningsprosessen, hvordan og i hvilken rekkefølge man bør handle med betingelsene for problemet (2). Vanskene som oppstår forklares med at læreren ofte prøver å gi kunnskap om innholdet i det som studeres og bryr seg mye mindre om hvordan man tenker og resonnerer (ibid.). Denne tolkningen krysser ideen om at kompleksiteten til en oppgave er relatert til antall operasjoner som må fullføres for å oppnå suksess. Disse definisjonene av vanskeligheter og kompleksitet er i stor grad psykologiske; de er nyttige for psykologisk analyse innhold i testoppgaver.

I mange år var det tradisjonelle målet på vanskelighetsgraden til hver oppgave andelen riktige svar i en gruppe fag, representert med symbolet pj, der bunnskriften j indikerer nummeret på oppgaven av interesse (1, 2, etc.). ). For eksempel, hvis de riktige svarene til fagene til den tredje oppgaven i testen vurderes med ett poeng, og feil - med null, kan verdien av p3-indikatoren finnes fra den elementære relasjonen:

P3 = R3/N,
der R3 betyr antall riktige svar på en gitt oppgave, og N er det totale antallet emner i gruppen. Generell formelå beregne andelen riktige svar på en oppgave (j) har formen

Pj = Rj/N
Indikator pj. har lenge vært brukt som vanskelighetsmål i såkalt klassisk testteori (3). Senere ble den semantiske unøyaktigheten inneholdt i det realisert: tross alt indikerer en økning i verdien av pj ikke en økning i vanskelighetsgrad, men tvert imot en økning i letthet, hvis et slikt ord kan brukes. Derfor i i fjor den motsatte statistikken begynte å bli assosiert med indikatoren for oppgavevanskelighet - andelen feil svar (qj). Denne andelen beregnes fra forholdet mellom antall feil svar (Wj- fra det engelske ordet Wrong - incorrect) og antall emner (N):

Det antas naturlig nok at pj + qj = 1. I klassisk testteori ble det i mange år kun vurdert empiriske vanskelighetsindikatorer. I nye versjoner av psykologiske og pedagogiske teorier om tester har det blitt viet mer oppmerksomhet til arten av mental aktivitet til studenter i prosessen med å utføre testoppgaver ulike former (4).

Innholdet i testen kan ikke bare være lett, middels eller vanskelig. Her manifesteres den velkjente ideen om avhengigheten av resultatene av metoden som brukes. Lette testelementer gir bare studentene inntrykk av kunnskap fordi de tester minimal kunnskap. I denne forbindelse kan det bemerkes at fokuset til det føderale utdanningsledelsesorganet på å teste minimumsnivået av kunnskap ikke og kan ikke, selv per definisjon, gi en ide om det reelle kunnskapsnivået, dvs. gi den informasjonen samfunnet og myndigheter lenge har trengt. Det forvrenger testresultater og valg av åpenbart vanskelige oppgaver, som et resultat av at flertallet av skoleelever ender opp med lave skårer. Fokus på vanskelige oppgaver blir ofte sett på som et middel for å øke motivasjonen for å lære. Imidlertid har dette middelet blandede effekter. Vanskelige oppgaver kan presse noen mennesker til å studere, mens andre kan skyve dem bort fra det. En slik orientering forvrenger resultatene og reduserer til slutt kvaliteten på den pedagogiske målingen. Hvis testen er bygget utelukkende fra oppgaver med økende vanskelighetsgrad, åpner dette veien for å lage en av de mest interessante måleskalaene - L. Gutman-skalaen.

Ved definering av testen ble det allerede lagt merke til at alle testoppgaver vil jeg understreke, uavhengig av innholdet i emner, avsnitt og akademiske disipliner, er ordnet etter økende vanskelighetsgrad. Den utbredte, inntil nylig, anbefalingen om å inkludere flere oppgaver med gjennomsnittlig vanskelighetsgrad i testen er berettiget fra synspunktet om å bestemme påliteligheten til målingen ved hjelp av de såkalte formlene. klassisk testteori. Metodene for å vurdere testreliabilitet som finnes i denne teorien resulterer i en reduksjon i reliabilitet når enkle og vanskelige oppgaver inkluderes i testen. Samtidig fører det å bli revet med av oppgaver med bare moderate vanskeligheter til en alvorlig deformasjon av innholdet i testen: sistnevnte mister evnen til å normalt reflektere innholdet i disiplinen som studeres, der det alltid er lett og vanskelig materiale. Dermed, i jakten på abstrakt teoretisk høy reliabilitet, går den materielle validiteten til testresultater tapt. Ønsket om å øke gyldigheten av testresultater er ofte ledsaget av en reduksjon i nøyaktigheten. Dette fenomenet er teoretisk kjent som paradokset til den amerikanske psykometriteoretikeren F. Lord

Hvis en svak elevgruppe testes, viser det seg at de vanskelige prøvepunktene rett og slett ikke fungerer fordi ikke en eneste elev kan svare riktig på dem. Slike oppgaver fjernes fra videre databehandling. De tilbys ikke i adaptive kontrollsystemer. Innholdet i prøven for svake elever vil skille seg markant fra innholdet i prøven for sterke elever. For sistnevnte, tvert imot, fungerer ikke enkle oppgaver, siden alle kunnskapsrike fag svarer på enkle oppgaver riktig. Dermed varierer innholdet i en tradisjonell prøve betydelig avhengig av beredskapsnivået til de elevgruppene hvis kunnskap prøven er rettet mot å måle.

Optimal kartlegging av innholdet i undervisningsmateriell til prøveoppgaver av nødvendig vanskelighetsgrad krever muligheten for å velge en passende form. Innholdet i prøven kommer til uttrykk i en av fire hovedoppgaver. Disse er: 1) oppgaver med valg av ett eller flere riktige svar blant de foreslåtte; 2) oppgaver i åpen form, hvor subjektet fullfører svaret selv, på den plass som er gitt for dette; 3) oppgaver for å etablere samsvar, og 4) oppgaver å etablere riktig rekkefølge handlinger.

Litteratur
  1. Zakharov A.I., Matyushkin A.M. Problemer adaptive systemer opplæring // Kybernetikk og treningsproblemer. - M.: Fremskritt, 1970.- 389 s.
  2. Landa L.N. Algoritmisering i trening. M., utdanning, 1966
  3. Gulliksen H. Teori om mentale tester. N - Y. Wiley. 1950 - 486 s. og mange flere etc.
  4. Tatsuoka, K.K. Elementkonstruksjon og psykometriske modeller passende for konstruert respons. Princeton, N-J, 1993. - 56 s; Frederiksen, N., Mislevy R. J., Bejar I. J. (red.). Testteori for en ny generasjon tester. Lawrence Erlbaum Ass. Publ. 1993, Hillsdale, N-J, 404 s. og så videre.

Vi vil definere kompleksiteten og vanskeligheten til testoppgaver basert på definisjonene av ordene "kompleks" og "vanskelig" fra forklarende ordbok Russisk språk Ushakov.

Så, "Kompleks - bestående av flere deler eller elementer, dannet gjennom tilkobling, tillegg av deler." Fra denne definisjonen blir det åpenbart klart hvordan kompleksiteten til en testoppgave kan bestemmes. For å gjøre dette er det nok å analysere antall kunnskapselementer som dekker denne testoppgaven, og også å fastslå hvor dypt testpersonen må kjenne til fagområdet når han svarer for å svare riktig på denne TK. Med andre ord kan vanskeligheter være knyttet til antall mentale operasjoner som må utføres for å komme frem til riktig svar. Hvis forsøkspersonen ikke kan noen av disse operasjonene, vil oppgaven være vanskelig for ham hvis han vet, vil det være lettere.

"Vanskelig - krever mye mental innsats, innsats, vanskelig, vanskelig." Denne definisjonen gir et av kriteriene for å vurdere vanskelighetsgraden til en testoppgave, nemlig hvor mye tid testpersonen vil trenge slik at innsatsen rettet mot å finne riktig svar ikke er bortkastet. Vanskelighetsbegrepet kan være basert på statistiske estimater, for eksempel, jo færre riktige svar, desto vanskeligere er oppgaven.

I det generelle tilfellet bestemmes kompleksitet og vanskelighetsgrad av utvikleren av spesifikasjonen og indikerer den subjektive verdien av hvor vanskelig det vil være for en testperson med et minimumsnivå av opplæring å løse en gitt testoppgave på en viss tid.

Vi kan skille mellom to typer kompleksitet og vanskeligheter – teoretisk (a priori) og faktisk (a posteriori). A priori kompleksitet og vanskelighetsgrad bestemmes av eksperter før testing. I prosessen med å teste en bank med testoppgaver og beregne ved hjelp av visse metoder, oppnås kompleksitet og vanskelighetsgrad i etterkant.

Det bør tas i betraktning at ved bruk av testbank for testing kan vanskelighetsgrad og kompleksitet tilpasses i samsvar med publikum, d.v.s. ved å innhente statistiske data om svar på oppgaver, er det mulig å fastslå hvor lett oppgaven oppfattes av testpersoner, og hvilke konklusjoner som gis på den. I samsvar med dette fastsettes testoppgavens faktiske (bakre) vanskelighetsgrad og kompleksitet.

Det viktigste formålet med kompleksiteten og vanskeligheten til tekniske spesifikasjoner er bruken av adaptive testalgoritmer. I mangel av informasjon om kompleksitet og vanskelighetsgrad er det umulig å tilpasse testoppgaver til testtakerens nåværende kunnskapsnivå. Dessuten, hvis vanskelighetsgraden og kompleksiteten er feil spesifisert, vil ikke de adaptive testalgoritmene fungere riktig, og som et resultat vil det bli gitt en vurdering av nivået på utdanningsprestasjoner som har en stor feil.

Som det fremgår av definisjonen, kan vanskelighetsgraden til en oppgave beregnes ut fra tiden som er avsatt til å løse denne oppgaven for en testperson med et gjennomsnittlig kunnskapsnivå. For eksempel 30 sekunder, eller 1 minutt og 50 sekunder. Åpenbart vil vanskeligheten i dette tilfellet avhenge av kompleksiteten, siden jo mer kompleks det tekniske oppdraget er, jo mer tid det vil ta å løse det, jo vanskeligere er det. På den annen side, jo vanskeligere oppgaven er, jo mer kunnskap du trenger for å finne svaret, desto vanskeligere blir oppgaven. Dermed er vanskelighetsgrad og kompleksitet åpenbart avhengig av hverandre. Det er derfor i teorien om pedagogiske målinger, som regel, brukes ett konsept - vanskelighetsgrad, i forhold til hvilket vi vil vurdere mer detaljert hvordan vanskeligheten til en testoppgave kan bestemmes.

  1. antall konsepter som kreves for å løse de tekniske spesifikasjonene;
  2. tankegangen som den tekniske spesifikasjonen er rettet mot;
  3. TK-skjema;
  4. dybden på plassering av tekniske spesifikasjoner i spesifikasjonen;
  5. antall distraktører og korrekte konklusjoner;
  6. Signifikansnivå.

Et konsept forstås videre som en bestemt konklusjon (formel, regel, aksiom osv.) som lar oss tilnærme oss riktig løsning TK. Jo flere trinn du må fullføre for å få riktig svar, jo høyere vanskelighetsgrad, jo vanskeligere vurderes den tekniske oppgaven. Vanskeligheten må selvsagt vurderes i forhold til antall konsepter som er involvert for å finne riktig løsning.

La oss gi følgende eksempler:

Enkel testoppgave

For å løse en slik oppgave trenger du ikke å utføre andre handlinger enn å huske navnet på den berømte russiske poeten, kjent for alle av skolepensum. En enkel (enkel) testoppgave har ett konsept.

Middels vanskelig oppgave

Røtter kvadratisk ligning formula" src="http://hi-edu.ru/e-books/xbook688/files/17-1.gif" border="0" align="absmiddle" alt="(Svar: 1 og -1).

Oppgaven er vanskelig

En ligning der en av røttene er lik formelen" src="http://hi-edu.ru/e-books/xbook688/files/17-3.gif" border="0" align="absmiddle " alt="( !LANG:)

markør">

  • rom og tid;
  • maksimere det positive og minimere det negative;
  • induksjon-deduksjon;
  • årsak-og-virkning (analytisk, positiv, deduktiv) tenkning;
  • dialektisk-algoritmisk (syntetisk, negativ, deduktiv) tenkning;
  • holografisk eller fullstendig beskrivende tenkning;
  • vortex, eller synergi.
  • Hver testtaker har sin egen subjektive verden av oppfatning. Det er dannet fra det en person legger mest vekt på. Følgelig, hvis testpersonen i utgangspunktet er fast bestemt på å oppfatte testprosedyren som noe vanskelig, uoppnåelig og psykologisk traumatisk, så kan selv den enkleste testoppgaven bli oppfattet av ham som en svært vanskelig oppgave. Hvis fagene i utgangspunktet er satt opp til å tro at dette er en ganske objektiv prosedyre for å sjekke hva de var i stand til å undervise og hva som fortsatt må jobbes med, og de selv ville være interessert i å finne ut hva de har lært godt, så holdning til selve prosedyren vil derfor være positiv, og vanskeligheten med oppgaven vil bli oppfattet mer objektivt av testpersonen.

    La oss prøve å identifisere måtene å tenke på som vanskeligheten med testoppgaver dannes i forhold til.

    Teknisk oppgave med enkel vanskelighetsgrad:

    • "identifikasjon" av et objekt eller verifisering av "kunnskapskjennskap";
    • å velge ett svaralternativ fra mange ved å bruke kunnskap om bare ett konsept;
    • trening åpen type, rettet mot å identifisere kunnskap om definisjonen av et enstavelsesbegrep.

    TK med middels vanskelighetsgrad:

    • er rettet mot å anvende tidligere ervervet kunnskap i typiske situasjoner (dvs. i de situasjoner som faget er kjent med) eller å teste "kunnskap om kopireproduksjon." TK på denne vanskelighetsgraden bør inkludere TK rettet mot tenkning assosiert med utsagn av en konjunktiv eller disjunktiv type eller TK med flere konsepter for å velge en undergruppe av riktige alternativer fra et gitt sett med konklusjoner. I noen tilfeller kan tekniske spesifikasjoner på denne vanskelighetsgraden inkludere tekniske spesifikasjoner for overholdelse og rekkefølge.

    Vanskelige tekniske oppgaver:

    • er rettet mot å bruke ervervet kunnskap og ferdigheter under ikke-standardiserte forhold (dvs. under forhold som tidligere var ukjent for faget) eller å teste "kunnskap om ferdigheter og anvendelse." Oppgaver på denne vanskelighetsgraden inkluderer oppgaver som fremkaller konklusjoner formulert i form av utsagn av implikativ type. Slike oppgaver krever bruk av resonnement i form av deduktiv, induktiv slutning og analogi, og det kreves en viss sekvens av slutninger (flere begreper) for å få et endelig svar.

    Det bør også tas i betraktning at vanskelighetsgraden av teknisk oppdrag kan bestemmes under hensyntagen til prøvebedømmelsens form. Her må det tas hensyn til antall begreper, pga hvis det for å velge riktig svar på en oppgave er nødvendig å ha litt tilleggskunnskap eller løse problemet, øker oppgavens vanskelighetsgrad. Den enkleste formen for testoppgaver anses å være lukket, når testpersonen blir bedt om å velge riktig(e) alternativ(er) blant de foreslåtte. Den vanskeligste anses å være åpen form, fordi for å gi den riktige konklusjonen, må du forstå betydningen av testdommen og velge ønsket definisjon fra flere eksisterende. Rekkefølge- og korrespondanseskjemaer refererer oftest til oppgaver med gjennomsnittlig vanskelighetsgrad.

    Vanskelighetsgrad kan tilordnes basert på om den tekniske spesifikasjonen tilhører testspesifikasjonens «dybde»-nivå. Hvis den tekniske spesifikasjonen avslører det laveste nivået i testspesifikasjonshierarkiet (for eksempel et "konsept"), vil en slik oppgave være enkel. Å tilhøre midtnivåene i testspesifikasjonshierarkiet (for eksempel et "emne" eller "underemne") øker vanskeligheten. Slike tekniske oppgaver kan betraktes som tekniske oppgaver med gjennomsnittlig vanskelighetsgrad. Til slutt, TK relatert til toppnivået, roten til hierarkietreet (for eksempel til "Seksjon", "Kapittel") kan anses som vanskelig. Følgelig, når vi vurderer vanskeligheten med å ta hensyn til spesifikasjonen til banken av testelementer, vil vi anta at oppgaven med å vurdere en mer spesifikk sak har mindre vanskeligheter enn oppgaven som vurderes for et mer generelt emne.

    Å øke antall distraktorer og riktige konklusjoner påvirker oppgavens vanskelighetsgrad. Hvordan større antall distraherende og korrekte konklusjoner, jo lengre tid krever tankeprosessen en riktig konklusjon. Tiden for å svare øker. Jo vanskeligere oppgaven vurderes.

    Vanskeligheten til en oppgave kan bestemmes basert på om TK tilhører hoved- og tilleggsmaterialene (betydningsnivået til TK). Det er åpenbart at for hver disiplin er det et visst sett med grunnleggende konsepter, for eksempel de som er foreskrevet i State Education Standard, og det er konsepter knyttet til tilleggsmateriale, det vil si materiale som kun gis til de mest vellykkede elevgruppene. I tillegg er det akseptabelt å gi ca 10 % av hele kursmateriellet etter lærerens skjønn. Derfor, hvis TK avslører et grunnleggende konsept, kan en slik oppgave betraktes som enkel, men hvis TK tilhører tilleggsmateriale (dvs. for å gi den riktige konklusjonen må du ha ytterligere kunnskap og operere med flere konsepter), da kan det anses som vanskelig.

    Når man skal bestemme vanskelighetsgraden til testmateriale, er det viktig å kunne sammenligne de gitte faktorene for ulike tilfeller og ta hensyn til alle egenskapene til fagområdet.

    For å forenkle oppgaven med å trekke konklusjoner om vanskelighetsgraden av testoppgaver, vil vi bestemme kvantitative indikatorer på kvalitative faktorer.

    La oss for eksempel ta 2 oppgaver fra banken, der følgende vanskelighetsgrader er definert:

    • oppgave nr. 1 er teoretisk tolket som vanskelig;
    • oppgave nr. 2 - teoretisk tolket som middels vanskelig.

    Et utvalg av 10 grupper av forsøkspersoner som ble testet i samme disiplin vurderes. Som et eksempel, la oss ta den gjennomsnittlige poengsummen oppnådd som et resultat av testing av fag i en gruppe på de to foreslåtte oppgavene.

    Ny side 1

    Grupper Poeng for 1. TOR Poeng for 2. TK
    № 1 32,1 45
    № 2 20 65
    № 3 55 34
    № 4 70 58
    № 5 64,2 40
    № 6 45 36
    № 7 46,1 67
    № 8 80 54
    № 9 72,3 44
    № 10 46,7 53

    For å vurdere vanskelighetsgraden til en testoppgave, velg ulike skalaer. La oss ta følgende skala, som vi a priori (teoretisk) vil vurdere som en referanseskala. La W være poengsummen til fagene på den i-te oppgaven under testing. Da kan 5-punktsskalaen for fordeling av prosenter (basert på 100%) og karakterer være som følger:

    formula" src="http://hi-edu.ru/e-books/xbook688/files/23.gif" border="0" align="absmiddle" alt=".gif" border="0" align="absmiddle" alt="

    hvor merke ">n er antall evalueringskoeffisienter på den valgte skalaen (for eksempel "utilfredsstillende", "tilfredsstillende", "bra", "utmerket"). Dermed er forskjellen mellom vurderingene i dette eksemplet lik 15 %.

    Skalaene for denne prøven vil se slik ut:

    Basert på de beregnede standardene vil vi foreta en endelig poengberegning, som et resultat av at vi oppnår at:

    • "lett" - denne oppgaven var for 30% av fagene;
    • "middels vanskelig" - for 50% av fagene;
    • "vanskelig" - for 20% av fagene.

    La oss beregne gjennomsnittsverdien oppnådd fra de tekniske spesifikasjonene av ti grupper for den andre oppgaven:

    som tilsvarer gjennomsnittlig vanskelighetsgrad på referanseskalaen (a priori).

    I utgangspunktet ble denne oppgaven tolket av testskribenten som middels vanskelighetsgrad. Følgelig vil a priori-verdien av oppgavens vanskelighetsgrad i dette tilfellet falle sammen med a posteriori-verdien, som vi vil anse som sann for denne prøven. Du kan også beregne den bakre skalaen for den andre oppgaven.