Matematisk grundlag for teorien om testdesign. Teoretisk grundlag for testning

Grundlæggende begreber i testteori.

En måling eller test taget for at bestemme en atlets tilstand eller evne kaldes en test. Enhver test involverer måling. Men ikke enhver ændring tjener som en test. Målingen eller testproceduren kaldes test.

En test baseret på motoriske opgaver kaldes motorisk. Der er tre grupper af motoriske tests:

  • 1. Kontroløvelser, hvor atleten har til opgave at vise maksimale resultater.
  • 2. Standard funktionstest, hvor opgaven, ens for alle, doseres enten i henhold til mængden af ​​udført arbejde eller i henhold til størrelsen af ​​fysiologiske ændringer.
  • 3. Maksimal funktionstest, hvor atleten skal vise maksimale resultater.

Test af høj kvalitet kræver viden om måleteori.

Grundlæggende begreber i måleteori.

Måling er identifikation af korrespondance mellem det fænomen, der undersøges, på den ene side og tal på den anden side.

Det grundlæggende i måleteori er tre begreber: måleskalaer, måleenheder og målenøjagtighed.

Måleskalaer.

En måleskala er en lov, hvorved en numerisk værdi tildeles et målt resultat, når det stiger eller falder. Lad os se på nogle af de skalaer, der bruges i sport.

Navneskala (nominel skala).

Dette er den enkleste af alle skalaer. I den fungerer numre som etiketter og tjener til at detektere og skelne objekter under undersøgelse (for eksempel nummereringen af ​​spillere på et fodboldhold). De tal, der udgør navneskalaen, må ændres af metaer. I denne skala er der ingen relationer som " mere - mindre”, så nogle mener, at brugen af ​​en navneskala ikke skal betragtes som en måling. Når man bruger en skala, navne, kan kun nogle matematiske operationer udføres. For eksempel kan dets tal ikke lægges til eller trækkes fra, men du kan tælle, hvor mange gange (hvor ofte) et bestemt tal optræder.

Bestil skala.

Der er sportsgrene, hvor atletens resultat kun bestemmes af placeringen i konkurrencen (for eksempel kampsport). Efter sådanne konkurrencer er det klart, hvem af atleterne der er stærkest, og hvem der er svagere. Men hvor meget stærkere eller svagere det er umuligt at sige. Hvis tre atleter tog henholdsvis første-, anden- og tredjepladsen, så er forskellen i deres sportsånd fortsat uklart: den anden atlet kan være næsten lig med den første eller kan være svagere end ham og være næsten identisk med den tredje. De pladser, der er optaget i ordensskalaen, kaldes ranger, og selve skalaen kaldes rang eller ikke-metrisk. I en sådan skala er dens bestanddele ordnet efter rang (dvs. besatte pladser), men intervallerne mellem dem kan ikke måles nøjagtigt. I modsætning til navneskalaen tillader rækkefølgeskalaen ikke kun at fastslå kendsgerningen om lighed eller ulighed mellem målte objekter, men også at bestemme karakteren af ​​ulighed i form af domme: "mere er mindre", "bedre er værre" osv. .

Ved hjælp af ordreskalaer kan du måle kvalitative indikatorer, der ikke har et strengt kvantitativt mål. Disse skalaer bruges særligt bredt inden for humaniora: pædagogik, psykologi, sociologi.

Ordreskalaer kan anvendes på rækker større antal matematiske operationer end til numrene på navneskalaen.

Interval skala.

Dette er en skala, hvor numre ikke kun er ordnet efter rang, men også adskilt af bestemte intervaller. Den egenskab, der adskiller den fra forholdsskalaen beskrevet nedenfor, er, at nulpunktet er valgt vilkårligt. Eksempler kan være kalendertid (begyndelsen af ​​kronologi i forskellige kalendere blev sat af tilfældige årsager), ledvinkel (vinklen ved albueleddet med fuld forlængelse af underarmen kan tages lig med enten nul eller 180°), temperatur, potentiel energi løftet last, potentiale elektrisk felt osv.

Resultaterne af målinger på en intervalskala kan behandles med alle matematiske metoder, undtagen ved beregning af forhold. Disse intervalskalaer giver et svar på spørgsmålet: "hvor meget mere", men tillader os ikke at sige, at en værdi af en målt størrelse er så mange gange større eller mindre end en anden. Hvis temperaturen for eksempel steg fra 10 til 20 C, så kan man ikke sige, at den er blevet dobbelt så varm.

Relationsskala.

Denne skala adskiller sig kun fra intervalskalaen ved, at den nøje definerer nulpunktets position. Takket være dette pålægger forholdsskalaen ingen begrænsninger for det matematiske apparatur, der bruges til at behandle observationsresultater.

I sport måler forholdsskalaer afstand, styrke, hastighed og snesevis af andre variabler. Forholdsskalaen måler også de mængder, der er dannet som forskelle mellem tal målt på intervalskalaen. Således tælles kalendertid på en skala af intervaller, og tidsintervaller - på en forholdstalsskala. Når man bruger en forholdsskala (og kun i dette tilfælde!), reduceres målingen af ​​enhver mængde til den eksperimentelle bestemmelse af forholdet mellem denne mængde og en anden lignende, taget som en enhed. Ved at måle længden af ​​springet finder vi ud af, hvor mange gange denne længde er længere en anden krop taget som en længdeenhed (en meter lineal i et bestemt tilfælde); Ved at veje en vægtstang bestemmer vi forholdet mellem dens masse og massen af ​​en anden krop - en enkelt "kilogram" vægt osv. Hvis vi kun begrænser os til brugen af ​​forholdsskalaer, så kan vi give en anden (snævrere, mere specifik) definition af måling: at måle en størrelse betyder eksperimentelt at finde dens relation til den tilsvarende måleenhed.

Måleenheder.

Til resultater forskellige dimensioner kunne sammenlignes med hinanden, skal de udtrykkes i de samme enheder. I 1960 vedtog den internationale generalkonference om vægte og mål Internationalt system enheder, forkortet SI (fra begyndelsesbogstaverne i ordene System International). I øjeblikket er den foretrukne anvendelse af dette system inden for alle områder af videnskab og teknologi blevet etableret, i national økonomi, samt ved undervisning.

SI omfatter i øjeblikket syv grundlæggende enheder uafhængige af hinanden (se tabel 2.1.)

Tabel 1.1.

Fra de angivne grundenheder udledes enhederne af andre fysiske størrelser som afledte. Afledte enheder bestemmes ud fra formler, der relaterer til hinanden fysiske mængder. For eksempel er længdeenheden (meter) og tidsenheden (sekund) grundlæggende enheder, og hastighedsenheden (meter pr. sekund) er en afledt.

Ud over de grundlæggende skelner SI to yderligere enheder: radianen, en enhed af plan vinkel, og steradianen, en enhed for rumvinkel (vinkel i rummet).

Målenøjagtighed.

Ingen måling kan foretages helt nøjagtigt. Måleresultatet indeholder uundgåeligt en fejl, hvis størrelse er mindre, jo mere nøjagtig målemetoden og måler. For eksempel ved hjælp af en almindelig lineal med millimeterinddelinger er det umuligt at måle længde med en nøjagtighed på 0,01 mm.

Grundlæggende og yderligere fejl.

Grundfejl er fejlen i målemetoden eller måleapparatet, som opstår i normale forhold deres ansøgninger.

Yderligere fejl er fejlen i en måleanordning forårsaget af afvigelse af dens driftsbetingelser fra normale. Det er klart, at enheder designet til at fungere på stuetemperatur vil ikke give nøjagtige aflæsninger, hvis du bruger den om sommeren på stadion under den brændende sol eller om vinteren i kulden. Målefejl kan forekomme, når spændingen elektrisk netværk eller batteristrømforsyningen er under normal eller inkonsekvent i værdi.

Absolutte og relative fejl.

Værdien E = A--Ao, lig med forskellen mellem aflæsningen af ​​måleanordningen (A) og den sande værdi af den målte størrelse (Ao), kaldes den absolutte målefejl. Det måles i de samme enheder som selve den målte størrelse.

I praksis er det ofte praktisk at bruge ikke absolut, men relativ fejl. Den relative målefejl er af to typer - reel og reduceret. Den faktiske relative fejl er forholdet absolut fejl til den sande værdi af den målte mængde:

A D =--------* 100 %

Den givne relative fejl er forholdet mellem den absolutte fejl og det maksimale mulig betydning målt mængde:

Op =----------* 100 %

Systematiske og tilfældige fejl.

Systematisk er en fejl, hvis værdi ikke ændres fra måling til måling. På grund af denne funktion kan systematiske fejl ofte forudsiges på forhånd eller i ekstreme tilfælde opdages og elimineres ved slutningen af ​​måleprocessen.

Metoden til at eliminere systematisk fejl afhænger primært af dens natur. Systematiske målefejl kan opdeles i tre grupper:

fejl af kendt oprindelse og kendt størrelse;

fejl af kendt oprindelse, men ukendt størrelse;

fejl af ukendt oprindelse og ukendt størrelse. De mest harmløse er fejlene i den første gruppe. De fjernes nemt

ved at indføre passende korrektioner til måleresultatet.

Den anden gruppe omfatter først og fremmest fejl forbundet med ufuldkommenhed af målemetoden og måleudstyret. For eksempel fejlen ved måling af fysisk præstation ved hjælp af en maske til opsamling af udåndingsluft: Masken besværliggør vejrtrækningen, og atleten demonstrerer naturligvis en fysisk præstation, der er undervurderet i forhold til den sande målt uden maske. Størrelsen af ​​denne fejl kan ikke forudsiges på forhånd: den afhænger af atletens individuelle evner og hans helbredstilstand på tidspunktet for undersøgelsen.

Et andet eksempel på en systematisk fejl i denne gruppe er en fejl forbundet med ufuldkomment udstyr, når en måleanordning bevidst overvurderer eller undervurderer den sande værdi af den målte værdi, men størrelsen af ​​fejlen er ukendt.

Fejl i den tredje gruppe er de farligste, deres forekomst er forbundet både med målemetodens ufuldkommenhed og med egenskaberne af måleobjektet - atleten.

Tilfældige fejl opstår under indflydelse af forskellige faktorer, som ikke kan forudsiges på forhånd eller nøjagtigt tages i betragtning. Tilfældige fejl kan i princippet ikke elimineres. Dog ved at bruge metoderne matematisk statistik, er det muligt at estimere størrelsen af ​​den tilfældige fejl og tage den i betragtning ved fortolkning af måleresultaterne. Uden statistisk bearbejdning kan måleresultater ikke anses for pålidelige.

En måling eller test udført for at bestemme en atlets tilstand eller evne kaldes prøve. Ikke alle målinger kan bruges som test, men kun dem, der opfylder særlige krav: standardisering, tilstedeværelsen af ​​et ratingsystem, pålidelighed, informationsindhold, objektivitet. Der kaldes tests, der opfylder kravene til pålidelighed, informationsindhold og objektivitet solid.

Testprocessen kaldes afprøvning, og de resulterende numeriske værdier er testresultat.

Tests baseret på motoriske opgaver kaldes motor eller motor. Afhængigt af den opgave, som forsøgspersonen står overfor, skelnes der mellem tre grupper af motoriske tests.

Typer af motortest

Testnavn

Opgave til atleten

Testresultat

Kontrol øvelse

Motoriske præstationer

1500m løbetid

Standard funktionstest

Ens for alle, doseret: 1) efter mængden af ​​udført arbejde; 2) ved størrelsen af ​​fysiologiske ændringer

Fysiologiske eller biokemiske indikatorer under standardarbejde Motoriske indikatorer under en standardmængde af fysiologiske ændringer

Pulsregistrering under standardarbejde 1000 kgm/min Løbehastighed ved puls 160 slag/min.

Maksimal funktionstest

Vis maksimalt resultat

Fysiologiske eller biokemiske indikatorer

Bestemmelse af maksimal iltgæld eller maksimalt iltforbrug

Nogle gange bruges ikke én, men flere test, der har et fælles slutmål. Denne gruppe af tests kaldes batteri af tests.

Det er kendt, at selv med den mest stringente standardisering og præcise udstyr varierer testresultaterne altid noget. Derfor er en af ​​de vigtige betingelser for at vælge gode tests deres pålidelighed.

Testens pålidelighed er graden af ​​overensstemmelse mellem resultater, når de samme personer testes gentagne gange under de samme forhold. Der er fire hovedårsager, der forårsager intra-individuel eller intra-gruppe variation i testresultater:

    ændring i forsøgspersonernes tilstand (træthed, ændring i motivation osv.); ukontrollerede ændringer ydre forhold og udstyr;

    ændring i tilstanden for den person, der udfører eller evaluerer testen (velbefindende, skift af eksperimentator osv.);

    testens ufuldkommenhed (f.eks. åbenlyst uperfekte og upålidelige tests - frikast i en basketballkurv før den første miss osv.).

Reliabilitetskriteriet for testen kan være pålidelighedsfaktor, beregnet som forholdet mellem den sande spredning og spredningen registreret i eksperimentet: r = sand s 2 / registreret s 2, hvor den sande værdi forstås som spredningen opnået ved uendelig stort antal observationer under samme betingelser; den registrerede varians er afledt af eksperimentelle undersøgelser. Med andre ord er reliabilitetskoefficienten simpelthen andelen af ​​sand variation i variationen, der registreres i eksperimentet.

Ud over denne koefficient bruger de også pålidelighedsindeks, som betragtes som en teoretisk korrelationskoefficient eller forhold mellem de registrerede og sande værdier af den samme test. Denne metode er mest almindelig som et kriterium for vurdering af kvaliteten (reliabiliteten) af en test.

Et af kendetegnene ved testpålidelighed er dens ækvivalens, som afspejler graden af ​​overensstemmelse mellem resultaterne af test af samme kvalitet (f.eks. fysisk) ved forskellige test. Holdningen til testækvivalens afhænger af den konkrete opgave. På den ene side, hvis to eller flere test er ækvivalente, øger deres kombinerede anvendelse estimaternes pålidelighed; på den anden side synes det muligt kun at bruge én tilsvarende test, hvilket vil forenkle testningen.

Hvis alle de test, der indgår i et batteri af tests, er meget ækvivalente, kaldes de homogen(for at vurdere kvaliteten af ​​springevnen må det for eksempel antages, at længdespring, højdespring og trespring vil være homogene). Tværtimod, hvis der ikke er tilsvarende tests i komplekset (som f.eks. til at vurdere generel fysisk kondition), så måler alle de test, der er inkluderet i det, forskellige egenskaber, dvs. i det væsentlige er komplekset heterogen.

Pålideligheden af ​​tests kan øges til en vis grad ved at:

    strengere standardisering af testning;

    øge antallet af forsøg;

    øge antallet af evaluatorer og øge sammenhængen i deres udtalelser;

    øge antallet af tilsvarende tests;

    bedre motivation af fag.

Test objektivitet Der er særligt tilfælde pålidelighed, dvs. uafhængighed af testresultater fra den person, der udfører testen.

Testens informationsindhold– dette er graden af ​​nøjagtighed, hvormed den måler den egenskab (atletens kvalitet), som den bruges til at evaluere. I forskellige tilfælde kan de samme test have forskelligt informationsindhold. Spørgsmålet om testens informativitet opdeles i to specifikke spørgsmål:

Hvad ændrer sig denne test? Hvordan måler det præcist?

Er det for eksempel muligt at bruge en indikator som MPC til at bedømme langdistanceløbernes beredskab, og i så fald med hvilken grad af nøjagtighed? Kan denne test bruges i kontrolprocessen?

Hvis testen bruges til at bestemme atletens tilstand på undersøgelsestidspunktet, så taler de om diagnostisk testens informationsindhold. Hvis de på baggrund af testresultaterne ønsker at drage en konklusion om atletens mulige fremtidige præstationer, taler de om prognostisk informationsindhold. En test kan være diagnostisk informativ, men ikke prognostisk og omvendt.

Graden af ​​informationsindhold kan karakteriseres kvantitativt - baseret på eksperimentelle data (det såkaldte empirisk informationsindhold) og kvalitativt - baseret på en meningsfuld analyse af situationen ( logisk informationsindhold). Selvom i praktisk arbejde, bør logisk eller meningsfuld analyse altid gå forud for matematisk analyse. En indikator for en tests informativitet er korrelationskoefficienten beregnet for kriteriets afhængighed af resultatet i testen og omvendt (kriteriet anses for at være en indikator, der tydeligvis afspejler den egenskab, der skal måles vha. testen).

I tilfælde, hvor informationsindholdet i en test er utilstrækkeligt, anvendes et batteri af tests. Sidstnævnte, selv med høje separate informationsindholdskriterier (bedømt ud fra korrelationskoefficienterne), tillader os imidlertid ikke at opnå et enkelt tal. Her kan en mere kompleks metode til matematisk statistik komme til undsætning - faktoranalyse. Hvilket giver dig mulighed for at bestemme, hvor mange og hvilke tests der arbejder sammen om en separat faktor, og hvad er graden af ​​deres bidrag til hver faktor. Det er så nemt at udvælge tests (eller kombinationer heraf), der mest præcist vurderer individuelle faktorer.

1 Hvad kaldes en test?

2 Hvad er test?

Kvantificering af en atlets kvalitet eller tilstand En måling eller test udført for at bestemme en atlets tilstand eller evne Testproces, der kvantitativt evaluerer en atlets kvalitet eller tilstand Ingen definition nødvendig

3 Hvad kaldes testresultatet?

Kvantificering af en atlets kvalitet eller tilstand En måling eller test udført for at bestemme en atlets tilstand eller evne Testproces, der kvantitativt evaluerer en atlets kvalitet eller tilstand Ingen definition nødvendig

4 Hvilken type test er dette? 100m løb?

5 Hvilken type test er dette? hånddynamometri?

Kontroløvelse Funktionstest Maksimal funktionstest

6 Hvilken type test tilhører prøven? IPC?

Kontroløvelse Funktionstest Maksimal funktionstest

7 Hvilken type test er dette? tre minutters løb med en metronom?

Kontroløvelse Funktionstest Maksimal funktionstest

8 Hvilken type test er dette? maksimalt antal pull-ups på stangen?

Kontroløvelse Funktionstest Maksimal funktionstest

9 I hvilke tilfælde betragtes en test som informativ?

10 Hvornår anses en test for pålidelig?

Testens evne til at være reproducerbar, når den testes igen Testens evne til at måle atletens kvalitet af interesse Testresultaternes uafhængighed af den person, der administrerer testen

11 I hvilket tilfælde anses testen for at være objektiv?

Testens evne til at være reproducerbar, når den testes igen Testens evne til at måle atletens kvalitet af interesse Testresultaternes uafhængighed af den person, der administrerer testen

12 Hvilket kriterium er nødvendigt ved evaluering af en test for informationsindhold?

13 Hvilket kriterium er nødvendigt ved evaluering af en pålidelighedstest?

Elevens T-test Fishers F-test Korrelationskoefficient Bestemmelseskoefficient Spredning

14 Hvilket kriterium er nødvendigt ved evaluering af en objektivitetstest?

Elevens T-test Fishers F-test Korrelationskoefficient Bestemmelseskoefficient Spredning

15 Hvad kaldes informationsindholdet i en test, hvis den bruges til at vurdere en atlets konditionsgrad?

16 Hvilket informationsindhold af kontroløvelser er træneren vejledt af, når han udvælger børn til sin idrætssektion?

Logisk prædiktiv empirisk diagnostik

17 Er korrelationsanalyse nødvendig for at vurdere informationsindholdet i test?

18 Er faktoranalyse nødvendig for at vurdere informationsindholdet i test?

19 Er det muligt at vurdere reliabiliteten af ​​en test ved hjælp af korrelationsanalyse?

20 Er det muligt at vurdere objektiviteten af ​​en test ved hjælp af korrelationsanalyse?

21 Vil test designet til at vurdere generel fysisk form være ækvivalent?

22 Ved måling af samme kvalitet med forskellige test, bruges test...

Designet til at måle den samme kvalitet At have en høj korrelation med hinanden At have en lav korrelation med hinanden

GRUNDLÆGGENDE AF VÆRDIDERINGSTEORIEN

For at evaluere sportsresultater bruges ofte specielle pointtabeller. Formålet med sådanne tabeller er at konvertere det viste sportsresultat (udtrykt i objektive mål) til betingede point. Loven om at konvertere sportsresultater til point kaldes vurderingsskala. Skalaen kan angives som et matematisk udtryk, tabel eller graf. Der er 4 hovedtyper af skalaer, der bruges i sport og idræt.

Proportionale skalaer

Regresserende skalaer

Progressive skalaer.

Proportionale skalaer foreslå tildeling af det samme antal point for en lige stor stigning i resultaterne (for hver 0,1 s forbedring af resultatet i 100 m løb, gives der f.eks. 20 point). Sådanne skalaer bruges i moderne femkamp, ​​hurtigløb på skøjter, skiløb, nordisk kombineret, skiskydning og andre sportsgrene.

Regresserende skalaer foreslår, at der for den samme stigning i resultater, som sportslige præstationer stiger, tildeles et stadigt mindre antal point (for eksempel for en forbedring af resultatet på 100 m løbet fra 15,0 til 14,9 sek. tilføjes 20 point, og for 0,1 s i intervallet 10,0-9,9 s – kun 15 point).

Progressive skalaer. Her, jo højere sportsresultatet er, desto større er stigningen i point for dets forbedring (for eksempel for en forbedring i løbetid fra 15,0 til 14,9 s tilføjes 10 point og fra 10,0 til 9,9 s - 100 point). Progressive skalaer bruges i svømning, visse typer atletik og vægtløftning.

Sigmoid skæl bruges sjældent i sport, men bruges i vid udstrækning til at vurdere fysisk kondition (det er f.eks. sådan skalaen af ​​fysiske konditionsstandarder for den amerikanske befolkning ser ud). I disse skalaer bliver forbedringer i resultater i zonen med meget lave og meget høje præstationer sparsomt belønnet; Stigningen i resultater i den midterste præstationszone giver flest point.

De vigtigste mål med vurderingen er:

    sammenligne forskellige præstationer i den samme opgave;

    sammenligne resultater i forskellige opgaver;

    definere standarder.

Normen i sportsmetrologi kaldes grænseværdien for resultatet, hvilket tjener som grundlag for at tildele en atlet til en af ​​klassifikationsgrupperne. Der er tre typer normer: komparative, individuelle, pga.

Sammenlignende standarder er baseret på en sammenligning af personer, der tilhører samme befolkning. For eksempel inddeling af mennesker i undergrupper efter graden af ​​modstand (høj, middel, lav) eller reaktivitet (hyperreaktiv, normoreaktiv, hyporeaktiv) over for hypoxi.

Forskellige gradueringer af vurderinger og normer

Procentdel af fag

Normer i skalaer

Verbal

i point

Percentil

Meget lav

Under M - 2

Fra M - 2 til M - 1

Under gennemsnittet

Fra M-1 til M–0,5

Fra M–0,5 til M+0,5

Over gennemsnittet

Fra M+0,5 til M+1

Fra M+1 til M+2

Meget høj

Over M+2

Disse normer karakteriserer kun forsøgspersoners komparative succeser i en given population, men siger ikke noget om befolkningen som helhed (eller i gennemsnit). Derfor skal komparative normer sammenlignes med data indhentet fra andre populationer og anvendes i kombination med individuelle og passende normer.

Individuelle normer er baseret på at sammenligne den samme atlets præstation under forskellige forhold. For eksempel er der i mange sportsgrene ingen sammenhæng mellem ens egen kropsvægt og atletisk præstation. Hver atlet har en individuelt optimal vægt svarende til deres atletiske konditionstilstand. Denne norm kan kontrolleres på forskellige stadier af sportstræning.

Behørige standarder er baseret på en analyse af, hvad et menneske skal kunne for at kunne klare de opgaver, livet stiller ham foran ham. Et eksempel på dette kan være standarderne for individuelle fysiske træningskomplekser, de korrekte værdier af vital kapacitet, basal stofskifte, kropsvægt og højde osv.

1 Er det muligt direkte at måle kvaliteten af ​​udholdenhed?

2 Er det muligt direkte at måle kvaliteten af ​​hastigheden?

3 Er det muligt direkte at måle kvaliteten af ​​fingerfærdighed?

4 Er det muligt direkte at måle kvaliteten af ​​fleksibilitet?

5 Er det muligt direkte at måle styrken af ​​individuelle muskler?

6 Kan vurderingen udtrykkes i en kvalitativ karakteristik (god, tilfredsstillende, dårlig, bestået osv.)?

7 Er der forskel på en måleskala og en vurderingsskala?

8 Hvad er en vurderingsskala?

System til måling af sportsresultater Loven om at konvertere sportsresultater til point System til evaluering af normer

9 Skalaen forudsætter tildeling af det samme antal point for en lige stor stigning i resultater. Denne …

10 For den samme stigning i resultater gives der færre og færre point, efterhånden som sportslige præstationer stiger.

Denne …

Progressiv skala Regressiv skala Proportional skala Sigmoid skala

Denne …

11 Jo højere idrætsresultatet er, jo større stigning i point, forbedringen vurderes. Denne …

Denne …

12 Forbedring af præstationer i de meget lave og meget høje præstationszoner belønnes sparsomt; Stigningen i resultater i den midterste præstationszone giver flest point. Denne …

13 normer baseret på sammenligning af mennesker, der tilhører samme befolkning, kaldes... 14 standarder baseret på sammenligning af præstationer for den samme atlet i forskellige stater

, kaldes...

Individuelle standarder Due standards Sammenlignende standarder

, kaldes...

15 Normer baseret på en analyse af, hvad en person skal kunne for at klare de opgaver, han har fået tildelt, kaldes ...

GRUNDLÆGGENDE KONCEPT FOR KVALIMETRI Kvalimetri

(latinsk qualitas - kvalitet, metron - mål) studerer og udvikler kvantitative metoder til vurdering af kvalitative egenskaber.

Kvalimetri er baseret på flere udgangspunkter:

Enhver kvalitet kan måles;

Kvalitet afhænger af en række egenskaber, der danner "kvalitetstræet" (for eksempel består kvalitetstræet for træningspræstation i kunstskøjteløb af tre niveauer - højeste, mellemste, laveste);

Hver egenskab bestemmes af to tal: relativ indikator og vægt; summen af ​​ejendomsvægtene på hvert niveau er lig med én (eller 100%).

Metodiske teknikker til kvalimetri er opdelt i to grupper:

Heuristisk (intuitivt), baseret på ekspertvurderinger og spørgeskemaer;

Medvirkende. Ekspert er en vurdering opnået ved at indhente udtalelser fra eksperter. Typiske eksempler på ekspertise: bedømmelse i gymnastik og kunstskøjteløb, konkurrence om de bedste videnskabeligt arbejde

Udførelse af en undersøgelse omfatter følgende hovedfaser: udformning af dens formål, udvælgelse af eksperter, valg af metode, gennemførelse af en undersøgelse og behandling af de modtagne oplysninger, herunder vurdering af sammenhængen i individuelle ekspertvurderinger. Under eksamen stor værdi har en grad af overensstemmelse mellem ekspertudtalelser, vurderet efter værdien rangkorrelationskoefficient(i tilfælde af flere eksperter). Det skal bemærkes, at rangkorrelation ligger til grund for løsningen af ​​mange kvalimetriproblemer, da det tillader matematiske beregninger med kvalitative karakteristika.

I praksis er en indikator for en eksperts kvalifikationer ofte afvigelsen af ​​hans vurderinger fra en ekspertgruppes gennemsnitlige vurderinger.

Spørgeskema er en metode til at indsamle meninger ved at udfylde spørgeskemaer. Spørgeskemaer er sammen med interviews og samtaler undersøgelsesmetoder. I modsætning til interviews og samtaler involverer spørgsmål skriftlige svar fra den person, der udfylder spørgeskemaet - respondenten - til et system af standardiserede spørgsmål. Det giver dig mulighed for at studere adfærdsmotiver, hensigter, meninger osv.

Ved hjælp af spørgeskemaer kan du løse mange praktiske problemer i sport: vurdering af en atlets psykologiske status; hans holdning til karakteren og retningen af ​​træningssessioner; interpersonelle relationer i teamet; egen vurdering af teknisk og taktisk beredskab; kostvurdering og mange andre.

1 Hvad studerer kvalimetri?

Undersøgelse af kvaliteten af ​​tests Undersøgelse af en egenskabs kvalitative egenskaber Undersøgelse og udvikling af kvantitative metoder til vurdering af kvalitet

2 Matematiske metoder, brugt i kvalimetri?

Parkorrelation Rangkorrelation Variansanalyse

3 Hvilke metoder bruges til at vurdere præstationsniveauet?

4 Hvilke metoder bruges til at vurdere mangfoldighed? tekniske elementer?

Spørgeskemametode Ekspertvurderingsmetode Metode ikke specificeret

5 Hvilke metoder bruges til at vurdere kompleksiteten af ​​tekniske elementer?

Spørgeskemametode Ekspertvurderingsmetode Metode ikke specificeret

6 Hvilke metoder bruges til at evaluere psykologisk tilstand atlet?

Spørgeskemametode Ekspertvurderingsmetode Metode ikke specificeret

KAPITEL 3. STATISTISK BEHANDLING AF TESTRESULTATER

Statistisk bearbejdning af testresultater giver på den ene side mulighed for objektivt at bestemme forsøgspersonernes resultater, på den anden side at vurdere kvaliteten af ​​selve testen, test opgaver, især for at vurdere dets pålidelighed. Problemet med pålidelighed har fået meget opmærksomhed i klassisk testteori. Denne teori har ikke mistet sin relevans i dag. På trods af udseendet mere moderne teorier, fortsætter den klassiske teori med at fastholde sin position.

3.1. GRUNDLÆGGENDE BESTEMMELSER I KLASSISK TESTTEORI

3.2. TESTRESULTATER MATRIX

3.3. GRAFISK REPRÆSENTATION AF TESTSCORE

3.4. MÅL AF CENTRAL TENDENS

3.5. NORMAL DISTRIBUTION

3.6. VARIATION AF TESTRESULTATER AF EMNE

3.7. KORELATIONSMATRIX

3.8. TEST PÅLIDELIGHED

3.9. TESTVALIDITET

LITTERATUR

GRUNDLÆGGENDE BESTEMMELSER I KLASSISK TESTTEORI

Skaberen af ​​den klassiske teori om mentale tests er den berømte britiske psykolog, forfatter til faktoranalyse, Charles Edward Spearman (1863-1945) 1. Han blev født den 10. september 1863 og gjorde tjeneste i den britiske hær i en fjerdedel af sit liv. Af denne grund fik han først sin ph.d.-grad i en alder af 41 2 . Charles Spearman udførte sin afhandlingsforskning ved Leipzig Laboratory of Experimental Psychology under ledelse af Wilhelm Wundt. På det tidspunkt var Charles Spearman stærkt påvirket af Francis Galtons arbejde med at teste menneskelig intelligens. Charles Spearmans elever var R. Cattell og D. Wechsler. Blandt hans tilhængere er A. Anastasi, J. P. Guilford, P. Vernon, C. Burt, A. Jensen.

Lewis Guttman (1916-1987) ydede et stort bidrag til udviklingen af ​​klassisk testteori.

Den klassiske testteori blev først præsenteret omfattende og fuldstændigt i Harold Gulliksens grundlæggende arbejde (Gulliksen H., 1950) 4 . Siden da er teorien blevet noget modificeret, især det matematiske apparat er blevet forbedret. Klassisk testteori i en moderne præsentation er givet i bogen Crocker L., Aligna J. (1986) 5. Blandt indenlandske forskere var V. Avanesov (1989) 6 den første til at beskrive denne teori. I arbejdet med Chelyshkova M.B. (2002) 7 giver oplysninger om den statistiske begrundelse for testens kvalitet.

Klassisk testteori er baseret på følgende fem grundprincipper.

1. Det empirisk opnåede måleresultat (X) er summen af ​​det sande måleresultat (T) og målefejlen (E) 8:

X = T + E (3.1.1)

Værdierne af T og E er normalt ukendte.

2. Det sande måleresultat kan udtrykkes som den matematiske forventning E(X):

3. Korrelationen af ​​sande og falske komponenter på tværs af sættet af emner er lig med nul, det vil sige ρ TE = 0.

4. De fejlagtige komponenter i to tests korrelerer ikke:

5. De fejlagtige komponenter i en test korrelerer ikke med de sande komponenter i nogen anden test:

Derudover er grundlaget for klassisk testteori dannet af to definitioner - parallelle og ækvivalente test.

PARALLEL-tests skal opfylde kravene (1-5), de sande komponenter i den ene test (T 1) skal være lig med de sande komponenter i den anden test (T 2) i hver prøve af emner, der besvarer begge tests. Det antages, at T 1 =T 2 og derudover er lig med variansen s 1 2 = s 2 2.

Ækvivalente test skal opfylde alle kravene til parallelle test med én undtagelse: de sande komponenter af en test behøver ikke at være lig med de sande komponenter i en anden parallel test, men de skal afvige med den samme konstant Med.

Betingelsen for ækvivalens af to prøver er skrevet ind følgende formular:

hvor c 12 er konstanten mellem resultaterne af den første og anden test.

På baggrund af ovenstående bestemmelser er der konstrueret en teori om testpålidelighed 9,10.

det vil sige, at variansen af ​​de resulterende testresultater er lig med summen af ​​varianserne af de sande og fejlagtige komponenter.

Lad os omskrive dette udtryk som følger:

(3.1.3)

Den højre side af denne lighed repræsenterer testens pålidelighed ( r). Testens pålidelighed kan således skrives som:

Baseret på denne formel blev der efterfølgende foreslået forskellige udtryk for at finde testens reliabilitetskoefficient. En tests pålidelighed er dens den vigtigste egenskab. Hvis pålideligheden er ukendt, kan testresultaterne ikke fortolkes. En tests pålidelighed karakteriserer dens nøjagtighed som et måleinstrument. Høj pålidelighed betyder høj repeterbarhed af testresultater under de samme forhold.

I klassisk testteori det vigtigste problem er at bestemme forsøgspersonens sande testscore (T). Empirisk testresultat(X) afhænger af mange forhold - opgavernes sværhedsgrad, testpersonernes beredskabsniveau, antallet af opgaver, testforhold mv. I en gruppe af stærke, velforberedte forsøgspersoner vil testresultater normalt være bedre. end i en gruppe af dårligt uddannede fag. I denne henseende forbliver spørgsmålet åbent om størrelsen af ​​sværhedsgraden af ​​opgaver på befolkning emner. Problemet er, at reelle empiriske data opnås fra helt tilfældige prøver af forsøgspersoner. Typisk er dette studiegrupper, der repræsenterer et væld af studerende, der interagerer ret stærkt med hinanden i læringsprocessen og studerer under forhold, der ofte ikke gentages for andre grupper.

Vi finder s E fra ligning (3.1.4)

Her er målenøjagtighedens afhængighed af standardafvigelsen eksplicit vist s X og om testens pålidelighed r.

grundlæggende testteori

Grundlæggende begreber i testteori

En måling eller test udført for at bestemme en atlets tilstand eller evne kaldes prøve .

Ikke alle målinger kan bruges som test, men kun dem der opfylder særlige krav. Disse omfatter:

1. standardisering (prøvningsproceduren og -betingelserne skal være de samme i alle tilfælde af anvendelse af prøvningen);
2. pålidelighed;
3. informationsindhold;
4. Tilgængelighed af et ratingsystem.

Der kaldes tests, der opfylder kravene til pålidelighed og informationsindhold solid eller autentisk (Græsk authentico - på en pålidelig måde).

Testprocessen kaldes afprøvning ; resulterende måling numerisk værdi - testresultat (eller testresultat). For eksempel er 100 m løbetur en test, proceduren for at gennemføre løb og timing er test, og løbets tidspunkt er testresultatet.

Tests baseret på motoriske opgaver kaldes motor eller motor . Deres resultater kan være enten motoriske præstationer (tid til at gennemføre distancen, antal gentagelser, tilbagelagt distance osv.) eller fysiologiske og biokemiske indikatorer.

Nogle gange bruges der ikke én, men flere tests, der har et enkelt endeligt mål (for eksempel at vurdere atletens tilstand i løbet af den konkurrencemæssige træningsperiode). Denne gruppe af tests kaldes kompleks eller batteri af tests .

Den samme test, anvendt på de samme forsøgspersoner, bør give identiske resultater under de samme betingelser (medmindre forsøgspersonerne selv har ændret sig). Men selv med den mest stringente standardisering og præcise udstyr varierer testresultaterne altid noget. For eksempel viser en forsøgsperson, der netop har vist et resultat på 215 kg i en dødløftdynamometritest, kun 190 kg ved gentagelse.

2. Test pålidelighed og måder at bestemme den på

Pålidelighed test er graden af ​​overensstemmelse mellem resultater ved gentagen test af de samme personer (eller andre objekter) under de samme forhold.

Variation i test-gentestresultater kaldes inden for-individ, eller inden for gruppe eller inden for-klassen.

Fire hovedårsager forårsager denne variation:

1. Ændring i forsøgspersonernes tilstand (træthed, træning, læring, ændring i motivation, koncentration osv.).
2. Ukontrollerede ændringer i ydre forhold og udstyr (temperatur, vind, luftfugtighed, strømforsyningsspænding, tilstedeværelse af uvedkommende osv.), dvs. alt, hvad der forenes af udtrykket "tilfældig målefejl".
3. Ændring af tilstanden for den person, der udfører eller evaluerer testen (og, selvfølgelig, udskiftning af en eksperimentator eller dommer med en anden).
4. Testens ufuldkommenhed (der er tests, der åbenlyst er upålidelige. For eksempel, hvis forsøgspersonerne laver frikast i en basketballkurv, så kan selv en basketballspiller med en høj procentdel af slag ved et uheld lave en fejl ved de første kast ).

Hovedforskellen mellem testpålidelighedsteori og målefejlteori er, at i fejlteori antages den målte værdi at være konstant, mens det i testpålidelighedsteori antages, at den ændrer sig fra måling til måling. Hvis det for eksempel er nødvendigt at måle resultatet af et gennemført forsøg i et løbende længdespring, så er det helt bestemt og kan ikke ændre sig væsentligt over tid. På grund af tilfældige årsager (for eksempel ulige spænding af målebåndet), er det naturligvis umuligt at måle dette resultat med ideel nøjagtighed (f.eks. op til 0,0001 mm). Men ved at bruge et mere præcist måleværktøj (såsom en lasermåler), kan deres nøjagtighed øges til det nødvendige niveau. På samme tid, hvis opgaven er at bestemme beredskabet af en jumper på individuelle stadier af den årlige træningscyklus, vil den mest nøjagtige måling af resultaterne vist af ham være til lidt hjælp: trods alt vil de ændre sig fra forsøg at forsøge.

For at forstå ideen om de metoder, der bruges til at bedømme pålideligheden af ​​tests, lad os se på et forenklet eksempel. Lad os antage, at det er nødvendigt at sammenligne resultaterne af stående længdespring for to atleter baseret på to forsøg. Lad os antage, at resultaterne for hver af atleterne varierer inden for ± 10 cm fra gennemsnitlig størrelse og er lig med henholdsvis 230 ± 10 cm (dvs. 220 og 240 cm) og 280 ± 10 cm (dvs. 270 og 290 cm). I dette tilfælde vil konklusionen selvfølgelig være helt utvetydig: den anden atlet er overlegen i forhold til den første (forskelle mellem gennemsnittet på 50 cm er klart højere end tilfældige udsving på ± 10 cm). Hvis forskellen mellem forsøgspersonernes gennemsnitsværdier (intergruppevariation) er lille med den samme intragruppevariation (± 10 cm), så vil det være meget vanskeligere at drage en konklusion. Lad os antage, at gennemsnitsværdierne vil være cirka 220 cm (i det ene forsøg - 210, i det andet - 230 cm) og 222 cm (212 og 232 cm). I dette tilfælde springer det første emne i det første forsøg 230 cm, og det andet - kun 212 cm; og det ser ud til, at den første er betydeligt stærkere end den anden. Fra dette eksempel er det klart, at hovedbetydningen ikke er intraklassevariabilitet i sig selv, men dens forhold til interklasseforskelle. Den samme intraklassevariabilitet giver forskellig reliabilitet med lige store forskelle mellem klasserne (i det særlige tilfælde mellem de undersøgte, fig. 14).

Ris. 14. Forholdet mellem inter- og intraklassevariation med høj (øverst) og lav (nederst) pålidelighed:

korte lodrette streger - data fra individuelle forsøg;

Gennemsnitlige resultater for tre emner.

Teorien om testpålidelighed er baseret på det faktum, at resultatet af enhver måling udført på en person er summen af ​​to værdier:

hvor: - det såkaldte sande resultat, som de ønsker at registrere;

Fejl forårsaget af ukontrollerede ændringer i forsøgspersonens tilstand og tilfældige målefejl.

Det sande resultat forstås som gennemsnitsværdien af ​​x for et uendeligt stort antal observationer under de samme forhold (af denne grund sættes tegnet ved x).

Hvis fejl er tilfældige (deres sum er nul, og i lige store forsøg afhænger de ikke af hinanden), så følger det fra matematisk statistik:

dem. Variansen af ​​resultaterne registreret i eksperimentet er lig med summen af ​​varianserne af de sande resultater og fejl.

Pålidelighedsfaktor kaldes forholdet mellem den sande dispersion og dispersionen registreret i eksperimentet:

Ud over pålidelighedskoefficienten bruger de også pålidelighedsindeks:

som betragtes som en teoretisk korrelationskoefficient mellem de registrerede testværdier og de sande.

Konceptet med et sandt testresultat er en abstraktion (det kan ikke måles eksperimentelt). Derfor er vi nødt til at bruge indirekte metoder. Den mest foretrukne metode til at vurdere pålidelighed er variansanalyse efterfulgt af beregning af intraklasse-korrelationskoefficienter. Variansanalyse giver os mulighed for at dekomponere den eksperimentelt registrerede variation i testresultater i komponenter på grund af individuelle faktorers indflydelse. For eksempel, hvis du registrerer resultaterne af forsøgspersonerne i en test, gentager du denne test i forskellige dage, og gør adskillige forsøg hver dag, med jævne mellemrum skiftende eksperimenter, så vil der forekomme variationer:

a) fra emne til emne;

b) fra dag til dag;

c) fra forsøgsleder til forsøgsleder;

d) fra forsøg til forsøg.

Variansanalyse gør det muligt at isolere og evaluere disse variationer.

For at vurdere testens praktiske reliabilitet er det således nødvendigt for det første at udføre en variansanalyse, og for det andet at beregne intraklassens korrelationskoefficient (reliabilitetskoefficient).

Med to forsøg falder værdien af ​​intraklasse-korrelationskoefficienten praktisk talt sammen med værdierne af den sædvanlige korrelationskoefficient mellem resultaterne af det første og andet forsøg. Derfor kan den sædvanlige korrelationskoefficient i sådanne situationer bruges til at vurdere pålideligheden (den estimerer pålideligheden af ​​et snarere end to forsøg).

Når vi taler om pålideligheden af ​​tests, er det nødvendigt at skelne mellem deres stabilitet (reproducerbarhed), konsistens og ækvivalens.

Under stabilitet test forstå reproducerbarheden af ​​resultater, når de gentages efter en vis tid under de samme forhold. Gentest kaldes normalt gentest.

Konsistens Testen er karakteriseret ved, at testresultaterne er uafhængige af de personlige egenskaber hos den person, der udfører eller evaluerer testen.

Ved udvælgelse af en test fra et vist antal lignende test (f.eks. sprint på 30, 60 og 100 m), vurderes graden af ​​overensstemmelse mellem resultaterne ved hjælp af parallelformsmetoden. Korrelationskoefficienten beregnet mellem resultaterne kaldes ækvivalens koefficient.

Hvis alle de test, der er inkluderet i en testsuite, er meget ækvivalente, kaldes det homogen. Hele dette kompleks måler en bestemt egenskab ved menneskelige motoriske færdigheder (f.eks. et kompleks bestående af stående lange, opadgående og tredobbelte spring; niveauet for udvikling af hastighed-styrke-kvaliteter vurderes). Hvis der ikke er tilsvarende tests i komplekset, måler testene, der er inkluderet i det forskellige egenskaber, så hedder det heterogen (for eksempel et kompleks bestående af dødløftdynamometri, Abalakov-hop, 100 m løb).

Pålideligheden af ​​tests kan øges til en vis grad ved at:

a) strengere standardisering af testning;

b) øge antallet af forsøg;

c) at øge antallet af evaluatorer (dommere, eksperimenter) og øge sammenhængen i deres udtalelser;

d) øge antallet af ækvivalente tests;

d) bedre motivation forsket.

Eksempel 10.1.

For at bestemme pålideligheden af ​​det stående trespring resulterer det i vurdering af sprinternes hastighedsstyrkeevner, hvis prøvedataene er som følger:

Løsning:

1. Indtast testresultaterne i arbejdsarket:

2. Erstat de opnåede resultater i formlen til beregning af rangkorrelationskoefficienten:

3. Bestem antallet af frihedsgrader ved hjælp af formlen:

Konklusion: den beregnede værdi opnået Derfor med tillid til 99% vi kan sige, at den stående trespringstest er pålidelig.

Grundlæggende om testteori 1. Grundlæggende begreber om testteori 2. Test reliabilitet og måder at bestemme den på

Sikkerhedsspørgsmål 1. Hvad hedder testen? 2. Hvad er kravene til testen? 3. Hvilke tests kaldes autentiske? 4. Hvad er pålideligheden af ​​en test? 5. Angiv årsagerne, der forårsager variation i resultater under gentagne tests. 6. Hvordan adskiller intraklassevariation sig fra interklassevariation? 7. Hvordan bestemmer man i praksis en tests pålidelighed? 8. Hvad er forskellen mellem testkonsistens og stabilitet? 9. Hvad er ækvivalensen af ​​tests? 10. Hvad er et homogent sæt af tests? 11. Hvad er et heterogent sæt af tests? 12. Måder at forbedre pålideligheden af ​​tests.

En test er en måling eller test udført for at bestemme en persons tilstand eller evne. Ikke alle målinger kan bruges som test, men kun dem der opfylder særlige krav. Disse omfatter: 1. standardisering (prøvningsproceduren og -betingelserne skal være de samme i alle tilfælde af brug af testen); 2. pålidelighed; 3. informationsindhold; 4. Tilgængelighed af et ratingsystem.

Testkrav: n Informationsindhold - graden af ​​nøjagtighed, hvormed den måler den egenskab (kvalitet, evne, egenskab), som den bruges til at evaluere. n Pålidelighed er den grad, hvori resultaterne er konsistente, når de samme personer testes gentagne gange under de samme forhold. Konsistens - ( forskellige mennesker, men de samme enheder og de samme forhold). n n Standarditet af betingelser - (samme betingelser for gentagne målinger). n Tilgængelighed af et karaktersystem - (oversættelse til et karaktersystem. Som i skolen 5 -4 -3...).

Tests, der opfylder kravene til pålidelighed og informationsindhold, kaldes lyde eller autentiske (græsk authentiko - på en pålidelig måde)

Testprocessen kaldes test; den resulterende numeriske værdi opnået som resultat af målingen er testresultatet (eller testresultatet). For eksempel er 100 m løbetur en test, proceduren for at gennemføre løb og timing er test, og løbets tidspunkt er testresultatet.

Test baseret på motoriske opgaver kaldes motoriske eller motoriske test. Deres resultater kan være enten motoriske præstationer (tid til at gennemføre distancen, antal gentagelser, tilbagelagt distance osv.) eller fysiologiske og biokemiske indikatorer.

Nogle gange bruges der ikke én, men flere tests, der har et enkelt endeligt mål (for eksempel at vurdere atletens tilstand i løbet af den konkurrencemæssige træningsperiode). En sådan gruppe af tests kaldes et sæt eller et batteri af tests.

Den samme test, anvendt på de samme forsøgspersoner, bør give identiske resultater under de samme betingelser (medmindre forsøgspersonerne selv har ændret sig). Men selv med den mest stringente standardisering og præcise udstyr varierer testresultaterne altid noget. For eksempel viser en forsøgsperson, der netop har vist et resultat på 215 kg i dødløftdynamometritesten, ved gentagelse kun 190 kg.

Tests pålidelighed og måder at bestemme den på. En tests pålidelighed er graden af ​​overensstemmelse mellem resultaterne ved gentagen testning af de samme personer (eller andre objekter) under de samme forhold.

Variation i test-gentest resultater kaldes inden for-individ, eller inden for gruppe eller inden for-klassen. Fire hovedårsager forårsager denne variation: 1. Ændring i forsøgspersonernes tilstand (træthed, træning, "læring", ændring i motivation, koncentration osv.). 2. Ukontrollerede ændringer i ydre forhold og udstyr (temperatur, vind, fugtighed, spænding i det elektriske netværk, tilstedeværelsen af ​​uautoriserede personer osv.), dvs. alt, der er forenet med udtrykket "tilfældig målefejl".

Fire hovedårsager forårsager denne variation: 3. En ændring i tilstanden for den person, der administrerer eller scorer testen (og selvfølgelig udskiftning af en eksperimentator eller dommer med en anden). 4. Testens ufuldkommenhed (der er tests, der åbenlyst er upålidelige. For eksempel, hvis forsøgspersonerne laver frikast i en basketballkurv, så kan selv en basketballspiller med en høj procentdel af slag ved et uheld lave en fejl ved de første kast ).

Konceptet med et sandt testresultat er en abstraktion (det kan ikke måles eksperimentelt). Derfor er vi nødt til at bruge indirekte metoder. Den mest foretrukne metode til at vurdere pålidelighed er variansanalyse efterfulgt af beregning af intraklasse-korrelationskoefficienter. Variansanalyse giver os mulighed for at dekomponere den eksperimentelt registrerede variation i testresultater i komponenter på grund af individuelle faktorers indflydelse.

Hvis vi registrerer resultaterne af forsøgspersonerne i en test, gentager denne test på forskellige dage og gør adskillige forsøg hver dag, periodisk skiftende forsøgspersoner, så vil der forekomme variationer: a) fra emne til emne; n b) fra dag til dag; n c) fra forsøgsleder til forsøgsleder; n d) fra forsøg til forsøg. Variansanalyse gør det muligt at isolere og evaluere disse variationer. n

For at vurdere testens praktiske reliabilitet er det således nødvendigt n for det første at udføre en variansanalyse, n for det andet at beregne intraklassens korrelationskoefficient (reliabilitetskoefficient).

Når vi taler om pålideligheden af ​​tests, er det nødvendigt at skelne mellem deres stabilitet (reproducerbarhed), konsistens og ækvivalens. n n Teststabilitet refererer til reproducerbarheden af ​​resultater, når de gentages efter en vis tid under de samme forhold. Gentagen test kaldes normalt en gentest. Testkonsistens er karakteriseret ved testresultaternes uafhængighed af de personlige egenskaber hos den person, der administrerer eller evaluerer testen.

Hvis alle de test, der indgår i et testsæt, er meget ækvivalente, kaldes det homogent. Hele dette kompleks måler én egenskab ved menneskelige motoriske færdigheder (for eksempel et kompleks bestående af lange, opadgående og tredobbelte hop; niveauet for udvikling af fart-styrke-kvaliteter vurderes). Hvis der ikke er ækvivalente test i komplekset, det vil sige, at de test, der er inkluderet i det, måler forskellige egenskaber, så kaldes det heterogent (for eksempel et kompleks bestående af dødløftdynamometri, Abalakov-spring, 100 m løb).

Testpålidelighed kan forbedres til en vis grad ved: n n n a) strengere standardisering af testning; b) øge antallet af forsøg; c) at øge antallet af evaluatorer (dommere, eksperimenter) og øge sammenhængen i deres udtalelser; d) øge antallet af ækvivalente tests; e) bedre motivation af fagene.