Matematisk grunnlag for teorien om testdesign. Teoretisk grunnlag for testing

Grunnleggende begreper i testteori.

En måling eller test tatt for å bestemme en idrettsutøvers tilstand eller evne kalles en test. Enhver test involverer måling. Men ikke hver endring fungerer som en test. Målingen eller testprosedyren kalles testing.

En test basert på motoriske oppgaver kalles motorisk. Det er tre grupper av motoriske tester:

  • 1. Kontrolløvelser, der utøveren får i oppgave å vise maksimale resultater.
  • 2. Standard funksjonstester, hvor oppgaven, den samme for alle, doseres enten i henhold til mengden utført arbeid, eller i henhold til omfanget av fysiologiske endringer.
  • 3. Maksimal funksjonstester, hvor utøveren må vise maksimale resultater.

Testing av høy kvalitet krever kunnskap om måleteori.

Grunnleggende begreper i måleteori.

Måling er identifiseringen av samsvar mellom fenomenet som studeres, på den ene siden, og tall, på den andre.

Det grunnleggende i måleteori er tre konsepter: måleskalaer, måleenheter og målenøyaktighet.

Måleskalaer.

En måleskala er en lov som tilordner en numerisk verdi til et målt resultat når det øker eller reduseres. La oss se på noen av skalaene som brukes i sport.

Navneskala (nominell skala).

Dette er den enkleste av alle skalaer. I den fungerer tall som etiketter og tjener til å oppdage og skille gjenstander som studeres (for eksempel nummerering av spillere på et fotballag). Tallene som utgjør navneskalaen har lov til å endres med metaer. I denne skalaen er det ingen relasjoner som " mer mindre”, så noen mener at bruken av en navneskala ikke bør betraktes som en måling. Når du bruker en skala, navn, kan bare noen matematiske operasjoner utføres. Tallene kan for eksempel ikke legges til eller trekkes fra, men du kan telle hvor mange ganger (hvor ofte) et bestemt tall vises.

Bestillingsvekt.

Det er idretter der idrettsutøverens resultat bare bestemmes av plassen som ble tatt i konkurransen (for eksempel kampsport). Etter slike konkurranser er det klart hvem av utøverne som er sterkest og hvilke som er svakere. Men hvor mye sterkere eller svakere det er umulig å si. Hvis tre idrettsutøvere tok henholdsvis første-, andre- og tredjeplasser, er det fortsatt uklart hva forskjellen i sportsånden deres er: den andre utøveren kan være nesten lik den første, eller kan være svakere enn ham og være nesten identisk med den tredje. Plassene som er okkupert i ordensskalaen kalles ranger, og selve skalaen kalles rang eller ikke-metrisk. I en slik skala er dens bestanddeler sortert etter rangering (dvs. okkuperte plasser), men intervallene mellom dem kan ikke måles nøyaktig. I motsetning til navneskalaen, tillater rekkefølgeskalaen ikke bare å fastslå faktum om likhet eller ulikhet mellom målte objekter, men også å bestemme arten av ulikhet i form av dommer: "mer er mindre", "bedre er verre" osv. .

Ved hjelp av ordreskalaer kan du måle kvalitative indikatorer som ikke har et strengt kvantitativt mål. Disse skalaene brukes spesielt mye innen humaniora: pedagogikk, psykologi, sosiologi.

Ordreskalaer kan brukes på rangeringer større antall matematiske operasjoner enn til tallene på navneskalaen.

Intervallskala.

Dette er en skala der tall ikke bare er sortert etter rangering, men også atskilt med visse intervaller. Funksjonen som skiller den fra forholdsskalaen beskrevet nedenfor, er at nullpunktet er valgt vilkårlig. Eksempler kan være kalendertid (begynnelsen av kronologi i ulike kalendere ble satt av tilfeldige årsaker), leddvinkel (vinkelen ved albueleddet med full ekstensjon av underarmen kan tas lik enten null eller 180°), temperatur, potensiell energi løftet last, potensial elektrisk felt og så videre.

Resultatene av målinger på en intervallskala kan behandles med alle matematiske metoder, bortsett fra beregning av forholdstall. Disse intervallskalaene gir svar på spørsmålet: «hvor mye mer», men tillater oss ikke å si at en verdi av en målt størrelse er så mange ganger mer eller mindre enn en annen. For eksempel, hvis temperaturen økte fra 10 til 20 C, kan det ikke sies at det har blitt dobbelt så varmt.

Relasjonsskala.

Denne skalaen skiller seg fra intervallskalaen bare ved at den strengt definerer posisjonen til nullpunktet. Takket være dette legger ikke forholdsskalaen noen begrensninger på det matematiske apparatet som brukes til å behandle observasjonsresultater.

I sport måler forholdsskalaer avstand, styrke, hastighet og dusinvis av andre variabler. Forholdsskalaen måler også de mengdene som dannes som forskjeller mellom tall målt på intervallskalaen. Dermed telles kalendertid på en intervallskala, og tidsintervaller - på en forholdsskala. Når du bruker en forholdsskala (og bare i dette tilfellet!), reduseres målingen av enhver mengde til den eksperimentelle bestemmelsen av forholdet mellom denne mengden og en annen lignende, tatt som en enhet. Ved å måle lengden på hoppet finner vi ut hvor mange ganger denne lengden er lengre en annen kropp tatt som en lengdeenhet (en meter linjal i et bestemt tilfelle); Ved å veie en vektstang bestemmer vi forholdet mellom dens masse og massen til en annen kropp - en enkelt "kilogram" vekt, etc. Hvis vi begrenser oss kun til bruken av forholdsskalaer, kan vi gi en annen (smalere, mer spesifikk) definisjon av måling: å måle en mengde betyr å eksperimentelt finne dens forhold til den tilsvarende måleenheten.

Måleenhet.

Til resultater forskjellige dimensjoner kan sammenlignes med hverandre, må de uttrykkes i samme enheter. I 1960 vedtok den internasjonale generalkonferansen om vekter og mål Internasjonalt system enheter, forkortet SI (fra de første bokstavene i ordene System International). Foreløpig er den foretrukne anvendelsen av dette systemet på alle felt av vitenskap og teknologi etablert, i nasjonal økonomi, samt ved undervisning.

SI inkluderer for tiden syv grunnleggende enheter uavhengig av hverandre (se tabell 2.1.)

Tabell 1.1.

Fra de angitte basisenhetene er enhetene til andre fysiske størrelser utledet som derivater. Avledede enheter bestemmes på grunnlag av formler som relaterer seg til hverandre fysiske mengder. For eksempel er lengdeenheten (meter) og tidsenheten (sekund) grunnleggende enheter, og hastighetsenheten (meter per sekund) er en derivert.

I tillegg til de grunnleggende, skiller SI to tilleggsenheter: radianen, en enhet for planvinkel, og steradianen, en enhet for solid vinkel (vinkel i rommet).

Nøyaktighet av målinger.

Ingen måling kan gjøres helt nøyaktig. Måleresultatet inneholder uunngåelig en feil, hvis størrelse er mindre, jo mer nøyaktig målemetoden og måleverktøy. For eksempel, ved å bruke en vanlig linjal med millimeterinndelinger, er det umulig å måle lengde med en nøyaktighet på 0,01 mm.

Grunnleggende og tilleggsfeil.

Grunnfeil er feilen til målemetoden eller måleanordningen, som oppstår i normale forhold søknadene deres.

Ytterligere feil er feilen til en måleenhet forårsaket av avvik i driftsforholdene fra normale. Det er tydelig at enheter designet for å operere på romtemperatur vil ikke gi nøyaktige avlesninger, hvis du bruker den om sommeren på stadion under stekende sol eller om vinteren i kulden. Målefeil kan oppstå når spenningen elektrisk nettverk eller batteristrømforsyningen er under normal eller inkonsekvent i verdi.

Absolutte og relative feil.

Verdien E = A-Ao, lik forskjellen mellom avlesningen av måleapparatet (A) og den sanne verdien av den målte størrelsen (Ao), kalles den absolutte målefeilen. Den måles i samme enheter som selve den målte mengden.

I praksis er det ofte praktisk å bruke ikke absolutt, men relativ feil. Den relative målefeilen er av to typer - reell og redusert. Den faktiske relative feilen er forholdet absolutt feil til den sanne verdien av den målte mengden:

A D =---------* 100 %

Den gitte relative feilen er forholdet mellom den absolutte feilen og maksimum mulig mening målt mengde:

Opp =----------* 100 %

Systematiske og tilfeldige feil.

Systematisk er en feil hvis verdi ikke endres fra måling til måling. På grunn av denne funksjonen kan systematiske feil ofte forutsies på forhånd eller, i ekstreme tilfeller, oppdages og elimineres ved slutten av måleprosessen.

Metoden for å eliminere systematisk feil avhenger først og fremst av dens natur. Systematiske målefeil kan deles inn i tre grupper:

feil av kjent opprinnelse og kjent størrelse;

feil av kjent opprinnelse, men ukjent størrelse;

feil av ukjent opprinnelse og ukjent størrelse. De mest ufarlige er feilene til den første gruppen. De fjernes enkelt

ved å innføre passende korreksjoner til måleresultatet.

Den andre gruppen inkluderer først av alt feil knyttet til ufullkommenhet i målemetoden og måleutstyret. For eksempel feilen ved måling av fysisk ytelse ved å bruke en maske for å samle opp utåndet luft: masken gjør det vanskelig å puste, og utøveren viser naturlig nok fysisk ytelse som er undervurdert sammenlignet med den sanne målt uten maske. Størrelsen på denne feilen kan ikke forutsies på forhånd: den avhenger av utøverens individuelle evner og hans helsetilstand på tidspunktet for studien.

Et annet eksempel på en systematisk feil i denne gruppen er en feil knyttet til ufullkommen utstyr, når en måleenhet bevisst overvurderer eller undervurderer den sanne verdien av den målte verdien, men størrelsen på feilen er ukjent.

Feil i den tredje gruppen er den farligste forekomsten deres er assosiert både med ufullkommenhet i målemetoden og med egenskapene til måleobjektet - idrettsutøveren.

Tilfeldige feil oppstår under påvirkning av ulike faktorer som ikke kan forutsies på forhånd eller nøyaktig tas i betraktning. Tilfeldige feil kan i prinsippet ikke elimineres. Men ved å bruke metodene matematisk statistikk, er det mulig å estimere størrelsen på den tilfeldige feilen og ta den i betraktning når man tolker måleresultatene. Uten statistisk bearbeiding kan måleresultater ikke anses som pålitelige.

En måling eller test utført for å bestemme tilstanden eller evnen til en idrettsutøver kalles test. Ikke alle målinger kan brukes som tester, men bare de som oppfyller spesielle krav: standardisering, tilstedeværelse av et rangeringssystem, pålitelighet, informasjonsinnhold, objektivitet. Tester som oppfyller kravene til pålitelighet, informasjonsinnhold og objektivitet kalles fast.

Testprosessen kalles testing, og de resulterende numeriske verdiene er prøve resultater.

Tester basert på motoriske oppgaver kalles motor eller motor. Avhengig av oppgaven faget står overfor, skilles tre grupper av motoriske tester ut.

Typer motortester

Testnavn

Oppgave for idrettsutøveren

Prøve resultater

Kontrolløvelse

Motoriske prestasjoner

1500m løpetid

Standard funksjonstester

Det samme for alle, dosert: 1) i henhold til mengden utført arbeid; 2) av størrelsen på fysiologiske endringer

Fysiologiske eller biokjemiske indikatorer under standardarbeid Motoriske indikatorer under en standard mengde fysiologiske endringer

Pulsregistrering ved standard arbeid 1000 kgm/min Løpehastighet ved puls 160 slag/min

Maksimal funksjonstester

Vis maksimalt resultat

Fysiologiske eller biokjemiske indikatorer

Fastsettelse av maksimal oksygengjeld eller maksimalt oksygenforbruk

Noen ganger brukes ikke én, men flere tester som har et felles sluttmål. Denne gruppen av tester kalles batteri av tester.

Det er kjent at selv med den strengeste standardisering og presist utstyr, varierer testresultatene alltid noe. Derfor er en av de viktige betingelsene for å velge gode tester deres pålitelighet.

Testens pålitelighet er graden av samsvar mellom resultater når de samme personene testes gjentatte ganger under de samme forholdene. Det er fire hovedårsaker som forårsaker intra-individuell eller intra-gruppe variasjon i testresultater:

    endring i tilstanden til fagene (tretthet, endring i motivasjon, etc.); ukontrollerte endringer ytre forhold og utstyr;

    endring i tilstanden til personen som gjennomfører eller evaluerer testen (velvære, endring av eksperimentator, etc.);

    ufullkommenhet av testen (for eksempel åpenbart ufullkomne og upålitelige tester - straffekast i en basketballkurv før den første missen osv.).

Reliabilitetskriteriet for testen kan være pålitelighetsfaktor, beregnet som forholdet mellom den sanne dispersjonen og dispersjonen registrert i eksperimentet: r = sann s 2 / registrert s 2, hvor den sanne verdien forstås som dispersjonen oppnådd ved uendelig stort nummer observasjoner under samme forhold; den registrerte variansen er avledet fra eksperimentelle studier. Med andre ord er pålitelighetskoeffisienten ganske enkelt andelen sann variasjon i variasjonen som registreres i eksperimentet.

I tillegg til denne koeffisienten bruker de også pålitelighetsindeks, som betraktes som en teoretisk korrelasjonskoeffisient eller forhold mellom de registrerte og sanne verdiene for samme test. Denne metoden er mest vanlig som et kriterium for å vurdere kvaliteten (reliabiliteten) til en test.

En av egenskapene til testpålitelighet er dens ekvivalens, som gjenspeiler graden av samsvar mellom resultatene av testing av samme kvalitet (for eksempel fysisk) ved forskjellige tester. Holdningen til testekvivalens avhenger av den spesifikke oppgaven. På den ene siden, hvis to eller flere tester er likeverdige, øker deres kombinerte bruk påliteligheten til estimatene; på den annen side ser det ut til at det er mulig å bruke kun én tilsvarende test, noe som vil forenkle testingen.

Hvis alle tester som er inkludert i et batteri av tester er svært likeverdige, kalles de homogen(for å vurdere kvaliteten på hoppevnen må det for eksempel antas at lange hopp, høye hopp og trippelhopp vil være homogene). Tvert imot, hvis det ikke er tilsvarende tester i komplekset (som for å vurdere generell fysisk form), så måler alle testene som er inkludert i det forskjellige egenskaper, dvs. i hovedsak er komplekset heterogen.

Påliteligheten til tester kan økes til en viss grad ved å:

    strengere standardisering av testing;

    øke antall forsøk;

    øke antall evaluatorer og øke konsistensen i deres meninger;

    øke antall likeverdige tester;

    bedre motivasjon av fag.

Test objektivitet Det er spesielt tilfelle pålitelighet, dvs. uavhengighet av testresultater fra personen som gjennomfører testen.

Informasjonsinnhold i testen– dette er graden av nøyaktighet som den måler egenskapen (kvaliteten til utøveren) som den brukes til å evaluere. I ulike tilfeller kan de samme testene ha ulikt informasjonsinnhold. Spørsmålet om testens informativitet brytes ned i to spesifikke spørsmål:

Hva endres denne testen? Hvordan måler det nøyaktig?

Er det for eksempel mulig å bruke en indikator som MPC for å vurdere beredskapen til langdistanseløpere, og i så fall med hvilken grad av nøyaktighet? Kan denne testen brukes i kontrollprosessen?

Hvis testen brukes til å bestemme tilstanden til utøveren på undersøkelsestidspunktet, så snakker de om diagnostisk informasjonsinnholdet i testen. Hvis de, basert på testresultatene, ønsker å trekke en konklusjon om utøverens mulige fremtidige prestasjoner, snakker de om prognostisk informasjonsinnhold. En test kan være diagnostisk informativ, men ikke prognostisk, og omvendt.

Graden av informasjonsinnhold kan karakteriseres kvantitativt – basert på eksperimentelle data (det såkalte empirisk informasjonsinnhold) og kvalitativt - basert på en meningsfull analyse av situasjonen ( logisk informasjonsinnhold). Selv om i praktisk arbeid bør logisk eller meningsfull analyse alltid gå foran matematisk analyse. En indikator på informativiteten til en test er korrelasjonskoeffisienten beregnet for kriteriets avhengighet av resultatet i testen, og omvendt (kriteriet er tatt for å være en indikator som åpenbart gjenspeiler egenskapen som skal måles vha. testen).

I tilfeller hvor informasjonsinnholdet i en test er utilstrekkelig, brukes et batteri av tester. Sistnevnte, selv med høye separate informasjonsinnholdskriterier (bedømt etter korrelasjonskoeffisienten), tillater oss imidlertid ikke å oppnå et enkelt tall. Her kan en mer kompleks metode for matematisk statistikk komme til unnsetning - faktor analyse. Som lar deg bestemme hvor mange og hvilke tester som fungerer sammen på en egen faktor og hvor mye de bidrar til hver faktor. Det er da enkelt å velge tester (eller kombinasjoner av disse) som mest nøyaktig vurderer individuelle faktorer.

1 Hva kalles en test?

2 Hva er testing?

Kvantifisere en kvalitet eller tilstand til en idrettsutøver En måling eller test utført for å bestemme tilstanden eller evnen til en idrettsutøver Testprosess som kvantitativt evaluerer en idrettsutøvers kvalitet eller tilstand Ingen definisjon nødvendig

3 Hva kalles testresultatet?

Kvantifisere en kvalitet eller tilstand til en idrettsutøver En måling eller test utført for å bestemme tilstanden eller evnen til en idrettsutøver Testprosess som kvantitativt evaluerer en idrettsutøvers kvalitet eller tilstand Ingen definisjon nødvendig

4 Hvilken type tester er dette? 100m løp?

5 Hva slags tester er dette? hånddynamometri?

Kontrolløvelse Funksjonstest Maksimal funksjonstest

6 Hvilken type tester tilhører utvalget? IPC?

Kontrolløvelse Funksjonstest Maksimal funksjonstest

7 Hvilken type tester er dette? tre minutters løp med metronom?

Kontrolløvelse Funksjonstest Maksimal funksjonstest

8 Hvilken type tester er dette? maksimalt antall pull-ups på stangen?

Kontrolløvelse Funksjonstest Maksimal funksjonstest

9 I hvilke tilfeller anses en test som informativ?

10 Når anses en test som pålitelig?

Testens evne til å være reproduserbar når den testes på nytt. Testens evne til å måle idrettsutøverkvaliteten av interesse Testresultatenes uavhengighet fra personen som administrerer testen

11 I hvilket tilfelle anses testen som objektiv?

Testens evne til å være reproduserbar når den testes på nytt. Testens evne til å måle idrettsutøverkvaliteten av interesse Testresultatenes uavhengighet fra personen som administrerer testen

12 Hvilket kriterium er nødvendig ved vurdering av en test for informasjonsinnhold?

13 Hvilket kriterium er nødvendig for å evaluere en pålitelighetstest?

Elevens T-test Fishers F-test Korrelasjonskoeffisient Bestemmelseskoeffisient Spredning

14 Hvilket kriterium er nødvendig for å evaluere en objektivitetstest?

Elevens T-test Fishers F-test Korrelasjonskoeffisient Bestemmelseskoeffisient Spredning

15 Hva kalles informasjonsinnholdet i en test hvis den brukes til å vurdere kondisjonsgraden til en idrettsutøver?

16 Hvilket informasjonsinnhold i kontrolløvelser veiledes treneren av når han velger ut barn til sin idrettsseksjon?

Logisk prediktiv empirisk diagnostikk

17 Er korrelasjonsanalyse nødvendig for å vurdere informasjonsinnholdet i tester?

18 Er faktoranalyse nødvendig for å vurdere informasjonsinnholdet i tester?

19 Er det mulig å vurdere reliabiliteten til en test ved hjelp av korrelasjonsanalyse?

20 Er det mulig å vurdere objektiviteten til en test ved hjelp av korrelasjonsanalyse?

21 Vil tester designet for å vurdere generell fysisk form være likeverdige?

22 Ved måling av samme kvalitet med forskjellige tester, brukes tester...

Designet for å måle samme kvalitet Å ha høy korrelasjon mellom hverandre Har lav korrelasjon mellom hverandre

GRUNNLEGGENDE FOR VERDERINGSTEORI

For å evaluere sportsresultater brukes ofte spesielle poengtabeller. Hensikten med slike tabeller er å konvertere det viste sportsresultatet (uttrykt i objektive mål) til betingede poeng. Loven om å konvertere sportsresultater til poeng kalles karakterskala. Skalaen kan angis som et matematisk uttrykk, tabell eller graf. Det er 4 hovedtyper av skalaer som brukes i idrett og kroppsøving.

Proporsjonale skalaer

Regresserende skalaer

Progressive skalaer.

Proporsjonale skalaer foreslå tildeling av samme antall poeng for en lik økning i resultater (for eksempel for hver 0,1 s med forbedring av resultatet i 100 m løp, gis det 20 poeng). Slike skalaer brukes i moderne femkamp, ​​hurtigløp, skiløp, nordisk kombinert, skiskyting og andre idretter.

Regresserende skalaer foreslår at for den samme økningen i resultater som sportsprestasjoner øker, gis det et stadig mindre antall poeng (for eksempel for en forbedring av resultatet på 100 m fra 15,0 til 14,9 s, legges det til 20 poeng, og for 0,1 s i området 10,0-9,9 s – bare 15 poeng).

Progressive skalaer. Her, jo høyere sportsresultatet er, desto større er økningen i poeng for forbedringen (for eksempel for en forbedring i løpetid fra 15,0 til 14,9 s, legges 10 poeng til, og fra 10,0 til 9,9 s - 100 poeng). Progressive skalaer brukes i svømming, visse typer friidrett og vektløfting.

Sigmoid skalaer brukes sjelden i idrett, men er mye brukt til å vurdere fysisk form (det er for eksempel slik omfanget av fysiske kondisjonsstandarder for den amerikanske befolkningen ser ut). I disse skalaene blir forbedringer i resultater i sonen med svært lave og svært høye prestasjoner sparsomt belønnet; Økningen i resultater i den midtre prestasjonssonen gir flest poeng.

Hovedmålene med vurderingen er:

    sammenligne ulike prestasjoner i samme oppgave;

    sammenligne prestasjoner i ulike oppgaver;

    definere standarder.

Normen i sportsmetrologi kalles grenseverdien for resultatet, som fungerer som grunnlag for å tilordne en idrettsutøver til en av klassifiseringsgruppene. Det er tre typer normer: komparative, individuelle, pga.

Sammenlignende standarder er basert på en sammenligning av personer som tilhører samme befolkning. For eksempel å dele mennesker inn i undergrupper etter graden av motstand (høy, middels, lav) eller reaktivitet (hyperreaktiv, normoreaktiv, hyporeaktiv) mot hypoksi.

Ulike graderinger av vurderinger og normer

Andel av fag

Normer i skalaer

Verbal

i poeng

Persentil

Veldig lav

Under M - 2

Fra M - 2 til M - 1

Under gjennomsnittet

Fra M-1 til M–0,5

Fra M–0,5 til M+0,5

Over gjennomsnittet

Fra M+0,5 til M+1

Fra M+1 til M+2

Veldig høy

Over M+2

Disse normene karakteriserer kun de komparative suksessene til fag i en gitt populasjon, men sier ikke noe om befolkningen som helhet (eller i gjennomsnitt). Derfor må komparative normer sammenlignes med data innhentet fra andre populasjoner og brukes i kombinasjon med individuelle og hensiktsmessige normer.

Individuelle normer er basert på å sammenligne ytelsen til samme utøver under forskjellige forhold. For eksempel, i mange idretter er det ingen sammenheng mellom ens egen kroppsvekt og atletisk ytelse. Hver idrettsutøver har en individuelt optimal vekt som tilsvarer deres atletiske kondisjon. Denne normen kan kontrolleres på forskjellige stadier av sportstrening.

Behørige standarder er basert på en analyse av hva en person må kunne for å lykkes med de oppgavene livet legger foran ham. Et eksempel på dette kan være standardene for individuelle fysiske treningskomplekser, de riktige verdiene for vitalkapasitet, basal metabolsk hastighet, kroppsvekt og høyde, etc.

1 Er det mulig å måle kvaliteten på utholdenhet direkte?

2 Er det mulig å måle kvaliteten på hastigheten direkte?

3 Er det mulig å måle kvaliteten på behendighet direkte?

4 Er det mulig å måle kvaliteten på fleksibilitet direkte?

5 Er det mulig å måle styrken til individuelle muskler direkte?

6 Kan vurderingen uttrykkes i en kvalitativ karakteristikk (god, tilfredsstillende, dårlig, bestått osv.)?

7 Er det forskjell på en måleskala og en vurderingsskala?

8 Hva er en vurderingsskala?

System for måling av idrettsresultater Loven om å konvertere idrettsresultater til poeng System for å evaluere normer

9 Skalaen forutsetter tildeling av samme antall poeng for lik resultatøkning. Denne …

10 For samme resultatøkning gis det færre og færre poeng etter hvert som idrettsprestasjoner øker.

Denne …

Progressiv skala Regressiv skala Proporsjonal skala Sigmoid skala

Denne …

11 Jo høyere idrettsresultat, jo større poengøkning, forbedringen vurderes. Denne …

Denne …

12 Forbedring i ytelse i sonene med svært lave og svært høye prestasjoner belønnes sparsomt; Økningen i resultater i den midtre prestasjonssonen gir flest poeng. Denne …

13 normer basert på sammenligning av mennesker som tilhører samme befolkning kalles... 14 standarder basert på sammenligning av prestasjonene til samme utøver i forskjellige stater

, er kalt...

Individuelle standarder Due standards Sammenlignende standarder

, er kalt...

15 Normer basert på en analyse av hva en person skal kunne for å takle oppgavene som er tildelt ham, kalles ...

GRUNNLEGGENDE KONSEPT FOR KVALIMETRI Kvalimetri

(latin qualitas - kvalitet, metron - mål) studerer og utvikler kvantitative metoder for å vurdere kvalitative egenskaper.

Kvalimetri er basert på flere utgangspunkt:

Enhver kvalitet kan måles;

Kvalitet avhenger av en rekke egenskaper som danner "kvalitetstreet" (for eksempel består kvalitetstreet for treningsytelse i kunstløp av tre nivåer - høyest, middels, lavest);

Hver egenskap bestemmes av to tall: relativ indikator og vekt; summen av eiendomsvektene på hvert nivå er lik én (eller 100%).

Metodiske teknikker for kvalimetri er delt inn i to grupper:

Heuristisk (intuitivt), basert på ekspertvurderinger og spørreskjemaer;

Instrumental. Ekspert er en vurdering innhentet ved å innhente uttalelser fra eksperter. Typiske eksempler på ekspertise: dømming i gymnastikk og kunstløp, konkurranse om de beste vitenskapelig arbeid

Gjennomføring av en undersøkelse omfatter følgende hovedstadier: å danne formålet, velge eksperter, velge en metodikk, gjennomføre en undersøkelse og behandle den mottatte informasjonen, inkludert vurdering av konsistensen i individuelle ekspertvurderinger. Under eksamen veldig viktig har en grad av samsvar mellom ekspertuttalelser, vurdert etter verdien rangkorrelasjonskoeffisient(ved flere sakkyndige). Det skal bemerkes at rangkorrelasjon ligger til grunn for løsningen av mange kvalimetriproblemer, siden den tillater matematiske beregninger med kvalitative egenskaper.

I praksis er en indikator på en eksperts kvalifikasjoner ofte avviket til vurderingene hans fra gjennomsnittsvurderingene til en gruppe eksperter.

Spørreskjema er en metode for å samle meninger ved å fylle ut spørreskjemaer. Spørreskjemaer, sammen med intervjuer og samtaler, er undersøkelsesmetoder. I motsetning til intervjuer og samtaler, innebærer avhør skriftlige svar fra personen som fyller ut spørreskjemaet – respondenten – til et system med standardiserte spørsmål. Den lar deg studere motiver for oppførsel, intensjoner, meninger osv.

Ved å bruke spørreskjemaer kan du løse mange praktiske problemer i idrett: vurdere den psykologiske statusen til en idrettsutøver; hans holdning til arten og retningen til treningsøktene; mellommenneskelige relasjoner i teamet; egen vurdering av teknisk og taktisk beredskap; kostholdsvurdering og mange andre.

1 Hva studerer kvalimetri?

Studere kvaliteten på tester Studere de kvalitative egenskapene til en egenskap Studere og utvikle kvantitative metoder for å vurdere kvalitet

2 Matematiske metoder, brukt i kvalimetri?

Parkorrelasjon Rangekorrelasjon Variansanalyse

3 Hvilke metoder brukes for å vurdere ytelsesnivået?

4 Hvilke metoder brukes for å vurdere mangfold? tekniske elementer?

Spørreskjemametode Ekspertvurderingsmetode Metode ikke spesifisert

5 Hvilke metoder brukes for å vurdere kompleksiteten til tekniske elementer?

Spørreskjemametode Ekspertvurderingsmetode Metode ikke spesifisert

6 Hvilke metoder brukes for å evaluere psykologisk tilstand atlet?

Spørreskjemametode Ekspertvurderingsmetode Metode ikke spesifisert

KAPITTEL 3. STATISTISK BEHANDLING AV TESTRESULTATER

Statistisk behandling av testresultater gjør det på den ene side mulig å objektivt bestemme resultatene til forsøkspersonene, på den annen side vurdere kvaliteten på selve testen, testoppgaver, spesielt for å evaluere påliteligheten. Problemet med pålitelighet har fått mye oppmerksomhet i klassisk testteori. Denne teorien har ikke mistet sin relevans i dag. Til tross for utseendet, mer moderne teorier, fortsetter den klassiske teorien å opprettholde sin posisjon.

3.1. GRUNNLEGGENDE BESTEMMELSER I KLASSISK TESTTEORI

3.2. TESTRESULTATER MATRIX

3.3. GRAFISK REPRESENTASJON AV TESTPOENG

3.4. TILTAK PÅ SENTRAL TENDENS

3.5. NORMAL DISTRIBUSJON

3.6. VARIASJON AV TESTPOENGER PÅ EMNE

3.7. KORELLASJONSMATRISKE

3.8. TEST PÅLITELIGHET

3.9. TESTVALIDITET

LITTERATUR

GRUNNLEGGENDE BESTEMMELSER I KLASSISK TESTTEORI

Skaperen av den klassiske teorien om mentale tester er den berømte britiske psykologen, forfatter av faktoranalyse, Charles Edward Spearman (1863-1945) 1. Han ble født 10. september 1863, og tjenestegjorde i den britiske hæren en fjerdedel av livet. Av denne grunn fikk han sin doktorgrad først i en alder av 41 2 . Charles Spearman utførte sin avhandlingsforskning ved Leipzig Laboratory of Experimental Psychology under ledelse av Wilhelm Wundt. På den tiden var Charles Spearman sterkt påvirket av Francis Galtons arbeid med å teste menneskelig intelligens. Charles Spearmans elever var R. Cattell og D. Wechsler. Blant hans tilhengere er A. Anastasi, J.P. Guilford, P. Vernon, C. Burt, A. Jensen.

Lewis Guttman (1916-1987) ga et stort bidrag til utviklingen av klassisk testteori.

Den klassiske testteorien ble først presentert omfattende og fullstendig i det grunnleggende arbeidet til Harold Gulliksen (Gulliksen H., 1950) 4 . Siden den gang har teorien blitt noe modifisert, spesielt har det matematiske apparatet blitt forbedret. Klassisk testteori i en moderne presentasjon er gitt i boken Crocker L., Aligna J. (1986) 5. Blant innenlandske forskere var V. Avanesov (1989) 6 den første som beskrev denne teorien. I arbeidet til Chelyshkova M.B. (2002) 7 gir informasjon om den statistiske begrunnelsen for kvaliteten på testen.

Klassisk testteori er basert på følgende fem grunnleggende prinsipper.

1. Det empirisk oppnådde måleresultatet (X) er summen av det sanne måleresultatet (T) og målefeilen (E) 8:

X = T + E (3.1.1)

Verdiene til T og E er vanligvis ukjente.

2. Det sanne måleresultatet kan uttrykkes som den matematiske forventningen E(X):

3. Korrelasjonen mellom sanne og usanne komponenter på tvers av settet med emner er lik null, det vil si ρ TE = 0.

4. De feilaktige komponentene i to tester korrelerer ikke:

5. De feilaktige komponentene i en test korrelerer ikke med de sanne komponentene i noen annen test:

I tillegg er grunnlaget for klassisk testteori dannet av to definisjoner - parallelle og ekvivalente tester.

PARALLELLE tester må oppfylle kravene (1-5), de sanne komponentene i den ene testen (T 1) må være lik de sanne komponentene i den andre testen (T 2) i hvert utvalg av emner som besvarer begge testene. Det antas at T 1 =T 2 og i tillegg er variansene lik s 1 2 = s 2 2.

Ekvivalente tester må oppfylle alle kravene til parallelle tester med ett unntak: de sanne komponentene i en test trenger ikke å være lik de sanne komponentene i en annen parallell test, men de må avvike med samme konstant Med.

Vilkåret for likeverdighet av to prøver er skrevet inn følgende skjema:

hvor c 12 er konstanten mellom resultatene av den første og andre testen.

Basert på bestemmelsene ovenfor er det konstruert en teori om testpålitelighet 9,10.

det vil si at variansen til de resulterende testresultatene er lik summen av variansene til de sanne og feilkomponentene.

La oss omskrive dette uttrykket som følger:

(3.1.3)

Høyresiden av denne likheten representerer påliteligheten til testen ( r). Dermed kan reliabiliteten til testen skrives som:

Basert på denne formelen ble det deretter foreslått ulike uttrykk for å finne testpålitelighetskoeffisienten. Påliteligheten til en test er dens den viktigste egenskapen. Hvis påliteligheten er ukjent, kan ikke testresultatene tolkes. Påliteligheten til en test karakteriserer dens nøyaktighet som et måleinstrument. Høy pålitelighet betyr høy repeterbarhet av testresultater under samme forhold.

I klassisk testteori det viktigste problemet er å bestemme forsøkspersonens sanne testscore (T). Empirisk testresultat(X) avhenger av mange forhold - vanskelighetsgraden til oppgaver, beredskapsnivået til testtakere, antall oppgaver, testforhold, etc. I en gruppe sterke, godt forberedte forsøkspersoner vil testresultatene vanligvis være bedre. enn i en gruppe dårlig trente fag. I denne forbindelse forblir spørsmålet åpent om størrelsen på mål for vanskelighetsgrad av oppgaver på befolkning fag. Problemet er at reelle empiriske data hentes fra helt tilfeldige utvalg av forsøkspersoner. Vanligvis er dette studiegrupper, som representerer en mengde studenter som samhandler ganske sterkt med hverandre i læringsprosessen og studerer under forhold som ofte ikke gjentas for andre grupper.

Vi finner s E fra ligning (3.1.4)

Her vises avhengigheten av målenøyaktigheten av standardavviket eksplisitt s X og om testens pålitelighet r.

grunnleggende om testteori

Grunnleggende begreper i testteori

En måling eller test utført for å bestemme tilstanden eller evnen til en idrettsutøver kalles test .

Ikke alle målinger kan brukes som tester, men kun de som oppfyller spesielle krav. Disse inkluderer:

1. standardisering (prøvingsprosedyren og -betingelsene må være de samme i alle tilfeller av bruk av testen);
2. pålitelighet;
3. informasjonsinnhold;
4. Tilgjengelighet av et rangeringssystem.

Tester som oppfyller kravene til pålitelighet og informasjonsinnhold kalles fast eller autentisk (Gresk authentico - på en pålitelig måte).

Testprosessen kalles testing ; resulterende måling numerisk verdi - prøve resultater (eller testresultat). For eksempel er 100 m løpetur en test, prosedyren for gjennomføring av løp og timing er testing, og løpstiden er testresultatet.

Tester basert på motoriske oppgaver kalles motor eller motor . Resultatene deres kan enten være motoriske prestasjoner (tid til å fullføre distansen, antall repetisjoner, tilbakelagt distanse, etc.), eller fysiologiske og biokjemiske indikatorer.

Noen ganger brukes ikke én, men flere tester som har et enkelt endelig mål (for eksempel å vurdere utøverens tilstand i løpet av den konkurrerende treningsperioden). Denne gruppen av tester kalles kompleks eller batteri av tester .

Den samme testen, brukt på de samme forsøkspersonene, skal gi identiske resultater under de samme forholdene (med mindre forsøkspersonene selv har endret seg). Men selv med den strengeste standardisering og presist utstyr, varierer testresultatene alltid noe. For eksempel, et forsøksperson som nettopp har vist et resultat på 215 kg i en markløftdynamometritest, viser bare 190 kg ved repetering.

2. Test pålitelighet og måter å bestemme den på

Pålitelighet test er graden av samsvar mellom resultater ved gjentatt testing av de samme personene (eller andre objekter) under de samme forholdene.

Variasjon i test-retestresultater kalles innenfor-individ, eller innenfor-gruppe, eller innenfor-klasse.

Fire hovedårsaker forårsaker denne variasjonen:

1. Endring i tilstanden til fagene (tretthet, trening, læring, endring i motivasjon, konsentrasjon osv.).
2. Ukontrollerte endringer i ytre forhold og utstyr (temperatur, vind, fuktighet, strømforsyningsspenning, tilstedeværelse av uvedkommende osv.), d.v.s. alt som er forent med begrepet "tilfeldig målefeil".
3. Endring av tilstanden til personen som gjennomfører eller evaluerer testen (og, selvfølgelig, erstatte en eksperimentator eller dommer med en annen).
4. Ufullkommenhet i testen (det er tester som åpenbart er upålitelige. For eksempel, hvis forsøkspersonene gjør straffekast inn i en basketballkurv, kan til og med en basketballspiller med en høy prosentandel av treff ved et uhell gjøre en feil ved de første kastene ).

Hovedforskjellen mellom testreliabilitetsteori og målefeilteori er at i feilteori antas den målte verdien å være konstant, mens det i testreliabilitetsteori antas at den endres fra måling til måling. For eksempel, hvis det er nødvendig å måle resultatet av et fullført forsøk i et løpende lengdehopp, så er det ganske bestemt og kan ikke endres nevneverdig over tid. På grunn av tilfeldige årsaker (for eksempel ulik spenning på målebåndet), er det selvfølgelig umulig å måle dette resultatet med ideell nøyaktighet (for eksempel opptil 0,0001 mm). Men ved å bruke et mer presist måleverktøy (som en lasermåler), kan deres nøyaktighet økes til det nødvendige nivået. På samme tid, hvis oppgaven er å bestemme beredskapen til en hopper på individuelle stadier av den årlige treningssyklusen, vil den mest nøyaktige målingen av resultatene som vises av ham være til liten hjelp: de vil tross alt endre seg fra forsøk å forsøke.

For å forstå ideen om metodene som brukes til å bedømme påliteligheten til tester, la oss se på et forenklet eksempel. La oss anta at det er nødvendig å sammenligne de stående lengdehoppresultatene til to idrettsutøvere basert på to forsøk gjort. La oss anta at resultatene til hver av utøverne varierer innenfor ± 10 cm fra gjennomsnittsstørrelse og er lik henholdsvis 230 ± 10 cm (dvs. 220 og 240 cm) og 280 ± 10 cm (dvs. 270 og 290 cm). I dette tilfellet vil konklusjonen selvfølgelig være helt entydig: den andre idrettsutøveren er overlegen den første (forskjellene mellom gjennomsnittene på 50 cm er klart høyere enn tilfeldige svingninger på ± 10 cm). Hvis, med samme intragruppevariasjon (± 10 cm), forskjellen mellom gjennomsnittsverdiene til forsøkspersonene (intergruppevariasjon) er liten, vil det være mye vanskeligere å trekke en konklusjon. La oss anta at gjennomsnittsverdiene vil være omtrent 220 cm (i ett forsøk - 210, i det andre - 230 cm) og 222 cm (212 og 232 cm). I dette tilfellet hopper det første emnet i det første forsøket 230 cm, og det andre - bare 212 cm; og det ser ut til at den første er betydelig sterkere enn den andre. Fra dette eksemplet er det klart at hovedbetydningen ikke er intraklassevariabilitet i seg selv, men dens forhold til interklasseforskjeller. Den samme intraklassevariabiliteten gir ulik reliabilitet med like forskjeller mellom klassene (i det spesielle tilfellet mellom de studerte, fig. 14).

Ris. 14. Forholdet mellom inter- og intraklassevariasjon med høy (øverst) og lav (bunn) pålitelighet:

korte vertikale slag - data fra individuelle forsøk;

Gjennomsnittlige resultater for tre fag.

Teorien om testpålitelighet er basert på det faktum at resultatet av enhver måling utført på en person er summen av to verdier:

hvor: - det såkalte sanne resultatet som de ønsker å registrere;

Feil forårsaket av ukontrollerte endringer i tilstanden til forsøkspersonen og tilfeldige målefeil.

Det sanne resultatet forstås som gjennomsnittsverdien av x for et uendelig stort antall observasjoner under de samme forholdene (av denne grunn settes tegnet ved x).

Hvis feilene er tilfeldige (summen deres er null, og i like forsøk er de ikke avhengige av hverandre), så følger det fra matematisk statistikk:

de. Variansen av resultatene registrert i eksperimentet er lik summen av variansene til de sanne resultatene og feilene.

Pålitelighetsfaktor kalles forholdet mellom den sanne dispersjonen og dispersjonen registrert i eksperimentet:

I tillegg til pålitelighetskoeffisienten bruker de også pålitelighetsindeks:

som anses som en teoretisk korrelasjonskoeffisient mellom de registrerte testverdiene og de sanne.

Konseptet med et ekte testresultat er en abstraksjon (det kan ikke måles eksperimentelt). Derfor må vi bruke indirekte metoder. Den mest foretrukne metoden for å vurdere reliabilitet er variansanalyse etterfulgt av beregning avnter. Variansanalyse gjør det mulig å dekomponere den eksperimentelt registrerte variasjonen i testresultater til komponenter bestemt av individuelle faktorers påvirkning. For eksempel, hvis du registrerer resultatene til forsøkspersonene i en test, gjentar du denne testen i forskjellige dager, og gjør flere forsøk hver dag, med jevne mellomrom bytter eksperimenter, så vil variasjoner forekomme:

a) fra emne til emne;

b) fra dag til dag;

c) fra eksperimentator til eksperimentator;

d) fra forsøk til forsøk.

Variansanalyse gjør det mulig å isolere og evaluere disse variasjonene.

For å vurdere den praktiske reliabiliteten til testen, er det derfor nødvendig for det første å utføre en variansanalyse, og for det andre å beregne intr(reliabilitetskoeffisient).

Med to forsøk sammenfaller verdien av intrpraktisk talt med verdiene til den vanlige korrelasjonskoeffisienten mellom resultatene av det første og andre forsøket. Derfor, i slike situasjoner, kan den vanlige korrelasjonskoeffisienten brukes til å vurdere påliteligheten (den estimerer påliteligheten til ett i stedet for to forsøk).

Når vi snakker om påliteligheten til tester, er det nødvendig å skille mellom deres stabilitet (reproduserbarhet), konsistens og ekvivalens.

Under stabilitet test forstå reproduserbarheten av resultater når de gjentas etter en viss tid under de samme forholdene. Retesting kalles vanligvis test på nytt.

Konsistens Testen kjennetegnes ved at testresultatene er uavhengige av de personlige egenskapene til personen som gjennomfører eller evaluerer testen.

Ved valg av en test fra et visst antall lignende tester (for eksempel sprint på 30, 60 og 100 m), vurderes graden av samsvar mellom resultatene ved hjelp av parallellskjemametoden. Korrelasjonskoeffisienten beregnet mellom resultatene kalles ekvivalens koeffisient.

Hvis alle testene som er inkludert i en testpakke er svært likeverdige, kalles den homogen. Hele dette komplekset måler en spesiell egenskap ved menneskelige motoriske ferdigheter (for eksempel et kompleks som består av stående lange, oppover og trippelhopp; nivået av utvikling av hastighet-styrke-kvaliteter vurderes). Hvis det ikke er tilsvarende tester i komplekset, måler testene som er inkludert i det ulike egenskaper, da heter det heterogen (for eksempel et kompleks bestående av markløftdynamometri, Abalakov-hopp, 100 m løp).

Påliteligheten til tester kan økes til en viss grad ved å:

a) strengere standardisering av testing;

b) øke antall forsøk;

c) øke antall evaluatorer (dommere, eksperimenter) og øke konsistensen i deres meninger;

d) øke antall likeverdige tester;

d) bedre motivasjon forsket på.

Eksempel 10.1.

For å bestemme påliteligheten til det stående trippelhoppet, vurderes hastighetsstyrkeevnen til sprintere, hvis prøvedataene er som følger:

Løsning:

1. Skriv inn testresultatene i regnearket:

2. Erstatt resultatene som er oppnådd i formelen for beregning av rangkorrelasjonskoeffisienten:

3. Bestem antall frihetsgrader ved å bruke formelen:

Konklusjon: den beregnede verdien oppnådd Derfor, med tillit til 99% vi kan si at den stående trippelhopptesten er pålitelig.

Grunnleggende om testteori 1. Grunnleggende begreper om testteori 2. Testreliabilitet og måter å bestemme den på

Kontrollspørsmål 1. Hva heter testen? 2. Hva er kravene til prøven? 3. Hvilke tester kalles autentiske? 4. Hva er reliabiliteten til en test? 5. List opp årsakene som forårsaker variasjoner i resultater under gjentatt testing. 6. Hvordan skiller intraklassevariasjon seg fra interklassevariasjon? 7. Hvordan kan man i praksis bestemme påliteligheten til en test? 8. Hva er forskjellen mellom testkonsistens og stabilitet? 9. Hva er ekvivalensen av tester? 10. Hva er et homogent sett med tester? 11. Hva er et heterogent sett med tester? 12. Måter å forbedre påliteligheten til tester.

En test er en måling eller test utført for å fastslå en persons tilstand eller evne. Ikke alle målinger kan brukes som tester, men kun de som oppfyller spesielle krav. Disse inkluderer: 1. standardisering (prosedyren og betingelsene for testing må være de samme i alle tilfeller av bruk av testen); 2. pålitelighet; 3. informasjonsinnhold; 4. Tilgjengelighet av et rangeringssystem.

Testkrav: n Informasjonsinnhold - graden av nøyaktighet som den måler egenskapen (kvalitet, evne, karakteristikk) som den brukes til å evaluere. n Reliabilitet er i hvilken grad resultatene er konsistente når de samme personene testes gjentatte ganger under de samme forholdene. Konsistens - ( forskjellige folk, men de samme enhetene og de samme forholdene). n n Standarditet av forhold - (samme forhold for gjentatte målinger). n Tilgjengelighet av et karaktersystem - (oversettelse til et karaktersystem. Som i skole 5 -4 -3...).

Tester som oppfyller kravene til pålitelighet og informasjonsinnhold kalles lyd eller autentisk (gresk authentiko - på en pålitelig måte)

Testprosessen kalles testing; den numeriske verdien oppnådd som et resultat av målingen er testresultatet (eller testresultatet). For eksempel er 100 m løpetur en test, prosedyren for gjennomføring av løp og timing er testing, og løpstiden er testresultatet.

Tester basert på motoriske oppgaver kalles motoriske eller motoriske tester. Resultatene deres kan enten være motoriske prestasjoner (tid til å fullføre distansen, antall repetisjoner, tilbakelagt distanse, etc.), eller fysiologiske og biokjemiske indikatorer.

Noen ganger brukes ikke én, men flere tester som har et enkelt endelig mål (for eksempel å vurdere utøverens tilstand i løpet av den konkurrerende treningsperioden). En slik gruppe av tester kalles et sett eller batteri av tester.

Den samme testen, brukt på de samme forsøkspersonene, skal gi identiske resultater under de samme forholdene (med mindre forsøkspersonene selv har endret seg). Men selv med den strengeste standardisering og presist utstyr, varierer testresultatene alltid noe. For eksempel, et forsøksperson som nettopp har vist et resultat på 215 kg i en markløftdynamometritest, viser bare 190 kg ved repetering.

Testers pålitelighet og måter å bestemme den Påliteligheten til en test er graden av samsvar mellom resultater ved gjentatt testing av de samme personene (eller andre objekter) under de samme forholdene.

Variasjon i test-retestresultater kalles innenfor-individ, eller innenfor-gruppe, eller innenfor-klasse. Fire hovedårsaker forårsaker denne variasjonen: 1. Endringer i tilstanden til fagene (tretthet, trening, «læring», endringer i motivasjon, konsentrasjon, etc.). 2. Ukontrollerte endringer i ytre forhold og utstyr (temperatur, vind, fuktighet, spenning i det elektriske nettverket, tilstedeværelse av uautoriserte personer, etc.), det vil si alt som er forent med begrepet "tilfeldig målefeil."

Fire hovedårsaker forårsaker denne variasjonen: 3. En endring i tilstanden til personen som administrerer eller skårer testen (og, selvfølgelig, erstatning av en eksperimentator eller dommer med en annen). 4. Ufullkommenhet i testen (det er tester som åpenbart er upålitelige. For eksempel, hvis forsøkspersonene gjør straffekast inn i en basketballkurv, kan til og med en basketballspiller med en høy prosentandel av treff ved et uhell gjøre en feil ved de første kastene ).

Konseptet med et ekte testresultat er en abstraksjon (det kan ikke måles eksperimentelt). Derfor må vi bruke indirekte metoder. Den mest foretrukne metoden for å vurdere reliabilitet er variansanalyse etterfulgt av beregning avnter. Variansanalyse gjør det mulig å dekomponere den eksperimentelt registrerte variasjonen i testresultater til komponenter bestemt av individuelle faktorers påvirkning.

Hvis vi registrerer resultatene til forsøkspersonene i en hvilken som helst test, gjentar denne testen på forskjellige dager, og gjør flere forsøk hver dag, med jevne mellomrom bytter eksperimenter, vil variasjoner forekomme: a) fra emne til emne; n b) fra dag til dag; n c) fra eksperimentator til eksperimentator; n d) fra forsøk til forsøk. Variansanalyse gjør det mulig å isolere og evaluere disse variasjonene. n

For å vurdere testens praktiske reliabilitet er det derfor nødvendig n for det første å utføre en variansanalyse, n for det andre å beregne intr(reliabilitetskoeffisient).

Når vi snakker om påliteligheten til tester, er det nødvendig å skille mellom deres stabilitet (reproduserbarhet), konsistens og ekvivalens. n n Teststabilitet refererer til reproduserbarheten av resultater når de gjentas etter en viss tid under de samme forholdene. Gjentatt testing kalles vanligvis en retest. Testkonsistens kjennetegnes ved at testresultatene er uavhengige av de personlige egenskapene til personen som administrerer eller evaluerer testen.

Hvis alle testene som inngår i et testsett er svært likeverdige, kalles det homogen. Hele dette komplekset måler én egenskap ved menneskelige motoriske ferdigheter (for eksempel et kompleks som består av å stå lange, oppover og trippelhopp; nivået på utviklingen av hastighet-styrke-kvaliteter vurderes). Hvis det ikke er tilsvarende tester i komplekset, det vil si at testene som er inkludert i det måler forskjellige egenskaper, kalles det heterogent (for eksempel et kompleks bestående av markløftdynamometri, Abalakov-hopp, 100 m løp).

Testpålitelighet kan forbedres til en viss grad ved: n n n a) strengere standardisering av testing; b) øke antall forsøk; c) øke antall evaluatorer (dommere, eksperimenter) og øke konsistensen i deres meninger; d) øke antall likeverdige tester; e) bedre motivasjon av fagene.