Letný semester 2025 | Cvičenie 4 | 17.03.2025
Prihlásenie k SAS OnDemand:
https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorením vlastného účtu s jedinečným
identifikačným číslom a potvrdenie registrácie prostredníctvom emailu.
Identifikačné číslo užívateľa (vo forme
uXXX, kde
XXX je samotné číslo uživateľa)
sa objavuje v niektorých následujúcich SAS skriptoch. Symbol
XXX v zdrojových kódoch je
potrebné vždy nahradiť príslušným identifikačným číslom užívateľa.
Nad rámec jednoduchého \(t\)-testu, ktorý je možné efektívne využiť pre analýzu longitudinálných (resp. korelovaných/závislých) dat (viď napr. predchádzajúce cvičenie), je možné využiť niektoré štatistické testy – napr. testy založené na (asymptoticky) mnohorozmernom normálnom rozdelení (presné, prípadne asymptotické).
Na rozdiel od párového \(t\)-testu, ktorý umožňoval analyzovať a testovať pouze dvojicu meraní v rámci jedného subjektu (napr. test rozdielu závislej premennej pred liečbou a po konkrétnej liečbe – t.j. zmena závislej premennej v rámci konkrétneho subjektu za určitú časovú jednotku), je možné testy založené na mnohorozmernom normálnom rozdelení aplikovať aj na longitudinálne profily, ktoré sú obsahujú väčší počet opakovaných (t.j., vájomne korelovaných/závislých) pozorovaní.
V následujúcej časti sa zameriame na porovnanie dvoch stredných
(očakávaných) longitudinálných profilov u dvoch rôznych (nezávislých)
skupin. Podkladové data predstavujú súbor pacientov s sklerózou
multiplex (datový súbor sm_data2.csv).
Jedná z možných otázok v súvislosti s týmto datovým súborom je napr.
časový priebeh nemoci (napr. v zmysle Expanded Disability Status Scale,
teda veličiny EDSS
). Je očakávaný (stredný) pribeh rovnaký
u mužských a ženských pacientov?
libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
proc print datafile = sm.data;
run;
Jednotlivé longitudinálne (tzv. subject-specific) profily získame napr. pomocou následujúceho SAS kódu:
title "Response Profiles by Gender";
proc sgplot data=sm.data;
series x=time y=EDSS / group=id groupLC=gender break lineattrs=(pattern=solid)
attrid=Treat;
legenditem type=line name="P" / label="Male" lineattrs=GraphData1;
legenditem type=line name="A" / label="Female" lineattrs=GraphData2;
keylegend "A" "P";
xaxis values=(0 1 4 6) grid;
run;
A príslušné priemerné profily pre dve vzájomne nezávislé skupiny – mužov a ženy – získame (napríklad) následujúcim spôsobom:
proc sgplot data=sm.data;
vline time / response=EDSS group=gender stat=mean limitstat=stderr;
run;
Porovnajte predchádzajúci výstup aj s následujúcim grafom a vysvetlite rozdielnosť záverov:
proc sgplot data=sm.data;
vline time / response=EDSS group=gender;
run;
S použitim grafou vytvorených vyššie, sa pokúste analyzovať
rozdiely medzí odhadnutým (resp. neznámym stredným) 0mužským a ženským
longitudinálnym profilom. Ak existuje nejaký časový okamžík v rámci
uvažovaného follow-up obdobia, ktorý by mohol mať za následok
zamietnutie nulovej hypotézy o rovnosti očakávaných hodnot EDSS u
mužského a ženského pacienta v niektorom konkrétnom čase, ktorý moment
vrámci follow-up obdobia by to bol?
Formálny štatistický test (pomocou Hotellingovej \(T^2\) testovej štatistiky) získame z tzv.
wide-data formátu pomocou procedúry PROC GLM
.
proc sort data=sm.data; by id; run;
proc transpose data=sm.data out=sm.dataWide prefix=Time_;
by id gender; /* Unique subject identifier and variables*/
id time; /* Variable that differentiates repeated measures */
var EDSS; /* The measurement variable */
run;
proc glm data=sm.dataWide;
class gender;
model Time_0 Time_1 Time_2 Time_3 Time_4 = gender;
manova h=gender / printh printe; /* Performs Hotellings test */
run;
V následujúcej časti sa zameriame na tri konkrétne štatistické testy, ktoré sa v súvislosti s analýzou longitudinálnych dat často vyuívajú.
Z matematického hľadiska je možné štatistický test rovnobežnosti longitudinálnych profilov formulovať aj ako štatistický test rovnosti jednotlivých inkrementov (v ľubovolných časových okamžikoch) medzi dvoma skupinami.
Uvažujme náhodný výber (mužský pacienti) \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_{N_1}\) z mnohorozmerného normálneho rozdelnia \(N_{n}(\boldsymbol{\mu}_1, \Sigma)\) a na ňom nezávislý druhý náhodný výber (ženský pacienti) \(\boldsymbol{Y_1}, \dots, \boldsymbol{Y}_{N_2}\) z mnohorozmerného normálneho rozdelenia \(N_{n}(\boldsymbol{\mu}_2, \Sigma)\).
Všimnite si, že predpokladané rozdelenia jednotlivých náhodných výberov sú stejné až na vektor stredných hodnôt (rovnaká dimenzia, rovnaká variančná-kovariančná matica). Každé jednotlivé pozorovanie – napr. \(\boldsymbol{X}_i\) (resp. \(\boldsymbol{Y}_j\)) predstavuje jeden individuálny longitudinálny profil o celkovej dĺžke \(n \in \mathbb{N}\) opakovaných (korelovaných, resp. závislých) pozorovaní vrámci daného subjektu. Uvažovaný model – t.j. variančna kovariančena matica \(\Sigma\) je pozitívne definitná, ale inak bližšie nešpecifikovaná. Umožňuje preto modelovať koreláciu medzi jednotlivými opakovanými pozorovaniami.
Je nutné sí uvedomiť, že vhľadom k predpokladu rovnakej
variančnej-kovariančnej matice je nutné, aby boli pozorovania
balancované v rámci oboch skupín dohromady.
V takto formulovanom pravdepodobnostnom modeli je štatistický test
rovnobežnosti longitudinálnych profilov pre \(\boldsymbol{X} \sim N_n(\boldsymbol{\mu}_1,
\Sigma)\) a \(\boldsymbol{Y} \sim
N_n(\boldsymbol{\mu}_2, \Sigma)\) ekvivalentný s nulovou
hypotézou \[
H_0: \mathbb{C}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) =
\boldsymbol{0},
\] oproti obecnej alternatíve, že nulové hypotéza \(H_0\) neplatí. Rovnosť v \(H_0\) je myslená po zložkách a matica \(\mathbb{C}\) predstavuje maticu kontrastov
v tvare \[
\mathbb{C} = \left(
\begin{array}{ccccc}
1 & -1 & 0 & \dots & 0\\
0 & 1 & -1 & \dots & 0\\
\vdots & \vdots & \ddots & \ddots & \vdots\\
0 & 0 & \dots & 1 & -1
\end{array}
\right) \in \mathbb{R}^{(n - 1) \times n}.
\] Pre výberový priemer \(\overline{\boldsymbol{X}}_{N_1} \sim
N_{n}(\boldsymbol{\mu}_1. \frac{1}{N_1}\Sigma)\) a výberový
priemer \(\overline{\boldsymbol{Y}}_{N_2} \sim
N_n(\boldsymbol{\mu}_2, \frac{1}{N_2} \Sigma)\) a tzv. pooled
variance estimate \(\mathcal{S} =
\frac{1}{N_1 + N_2}\Big[N_1 \widehat{\Sigma}_{X} + N_2
\widehat{\Sigma}_Y\Big] \sim W_{n}(\Sigma, N_1 + N_2 - 2)\), kde
\(\widehat{\Sigma}_X\) a \(\widehat{\Sigma}_Y\) sú výberové
variančné-kovariančné matice založené na náhodných výberoch \(\boldsymbol{X}_1, \dots,
\boldsymbol{X}_{N_1}\) a \(\boldsymbol{Y}_1, \dots,
\boldsymbol{Y}_{N_2}\), platí, že za platnosti nulovej hypotézy
má testová štatistika definovaná predpisom \[
T = \frac{N_1 N_2}{(N_1 + N_2)^2} (N_1 + N_2 -
2)\Big[\mathbb{C}(\overline{\boldsymbol{X}}_{N_1} -
\overline{\boldsymbol{Y}}_{N_2}) \Big]^\top \Big(
\mathbb{C}\mathcal{S}\mathbb{C} \Big)^{-1}
\Big[\mathbb{C}(\overline{\boldsymbol{X}}_{N_1} -
\overline{\boldsymbol{Y}}_{N_2}) \Big]
\] má Hotellingovo \(T^2\)
rozdelenie s \(n - 1\) a \(N_1 + N_2 - 2\) stupňami voľnosti. Matica
\(\mathcal{S} \in \mathbb{R}^{(n - 1) \times n
}\) predstavuje výberovú variančnú-kovariančnú maticu spočítanu z
celkového náhodného výberu \(\boldsymbol{X}_1,
\dots, \boldsymbol{X}_{N_1}, \boldsymbol{Y}_1, \dots,
\boldsymbol{Y}_{N_2}\) (tzv. ``pooled covariance matrix’’).
V programe SAS uskutočníme test napr. pomocou následujúcej
implmenentácie procedúry PROC GLM
:
proc glm data=sm.dataWide;
class gender;
model Time_0 Time_1 Time_2 Time_3 Time_4 = gender;
manova h=gender / printh printe; /* Performs Hotellings test */
/* Specify the contrast matrix C */
manova h=gender m=(1 -1 0 0 0,
0 1 -1 0 0,
0 0 1 -1 0,
0 0 0 1 -1) prefix=diff;
run;
Druhým zaujímavým testom v súvislosti s analýzou longitudinálnych profilov medzi dvoma nezávislými skupinami je porovnanie jednotlivých profilov v zmysle vzájomnej rovnosti. Je dôležité si ale uvedomiť, že tento test nemá dobrý zmysel v prípade, že predchádzajúci test o rovnobežnosti profilov zamietol nulovú hypotézu. V takom prípade totíž dve skupiny reaguju v priebehu času rozdielne (napr. skupina reagujúca na liečbu a kontrolná skupina reagujúca na placebo, alebo v súvislosti s pacientami na sklerózu jedna skupina predstavuje mužských pacientov, tá druhá ženských pacientov).
Nulová hypotéza može byť formálne zapísana ako \[ H_0: \boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu_2}) = 0, \] oproti obecnej alternatíve \[ H_1: \boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu_2}) \neq 0. \] V prípade alternatívy teda existuje aspoň jeden časový okamžík z uvažovaného follow-up obdobia (o celkovej dĺžke \(p in \mathbb{N}\)), pre ktorý platí, že stredná hodnota \(\boldsymbol{X}\) je v danej dimenzii odlišná od strednej hodnoty \(\boldsymbol{Y}\) (v tej istej dimenzii).
Štatistický test nulovej hypotézy \(H_0\) je opäť založený na testovej štatistike, ktorá ma zaplatnosti nulovej hypotézy Hotellingovo \(T^2\) rozdelenie. V privom rade platí, že skupinové vyberové priemerý majú postupne mnohorozmerné normálne rozdelenie \[ \overline{\boldsymbol{X}}_{N_1} \sim N_{n}(\boldsymbol{\mu}_1, \frac{1}{N_1} \Sigma) \] a tiež \[ \overline{\boldsymbol{Y}}_{N_2} \sim N_{n}(\boldsymbol{\mu}_2, \frac{1}{N_2}\Sigma). \] Z obecných vlastností mnohorozmerného normálneho rozdelenia (a tiež vzájomnej nezávislosti medzi \(\boldsymbol{X}_i\) a \(\boldsymbol{Y}_j\)) zároven platí \[ \big(\overline{\boldsymbol{X}}_{N_1} - \overline{\boldsymbol{Y}}_{N_2}\big) \sim N_{n}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2, \frac{N_1 + N_{2}}{N_1 N_2}\Sigma), \] a taktiež \[ \boldsymbol{1}^\top \big(\overline{\boldsymbol{X}}_{N_1} - \overline{\boldsymbol{Y}}_{N_2}\big) \sim N_{n}(\boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2), \frac{N_1 + N_2}{N_1 N_2} \cdot \boldsymbol{1}^\top \Sigma \boldsymbol{1}). \]
Variančná-kovariančná matica \(\Sigma\) je ale obecne neznáma a preto je potrebné ju pomocou dat odhadnúť. Nech \(\mathcal{S}_1\) je výberová variančná-kovariančná matica spočítaná z náhodného výberu \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_{N_1}\) a analogicky \(\mathcal{S}_2\) je výberová variančná-kovariančná matica spočítaná z náhodného výberu \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_{N_2}\). Pripomeňme, že platí následujúce: \[ N_1 \mathcal{S}_1 = \mathbb{X}^\top \mathcal{H}_{N_1} \mathbb{X} \sim W_{n}(\Sigma, N_1 - 1) \] a \[ N_2 \mathcal{S}_2 = \mathbb{Y}^\top \mathcal{H}_{N_2} \mathbb{Y} \sim W_{n}(\Sigma, N_2 - 1), \] kde \(\mathbb{X}= (\boldsymbol{X}_1, \dots, \boldsymbol{X}_{N_1})^\top\) a \(\mathbb{Y} = (\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_{N_2})^\top\) a \(\mathcal{H}_{N_1} = \mathbb{I}_{N_1} - \frac{1}{N_1}\boldsymbol{1}_{N_1}\boldsymbol{1}_{N_1}^\top\) a \(\mathcal{H}_m{N_2}= \mathbb{I}_{N_2} - \frac{1}{N_2}\boldsymbol{1}_{N_2}\boldsymbol{1}_{N_2}^\top\) sú tzv. centrovacie štvorcové matice typu \(N_1 \times N_1\) a \(N_2 \times N_2\) respective.
Z vlastnosti Wishartovho rozdelenia a tiež z nezávislosti \(N_1\mathcal{S}_1\) a \(N_2\mathcal{S}_m\) plynie tiež \[ N_1 \mathcal{S}_1 + N_2 \mathcal{S}_2 \sim W_{n}(\Sigma, N_! + N_2 - 2), \] pričom tzv. ``pooled’’ odhad variačnej-kovariačnej matice \(\Sigma\) získame ako \(\mathcal{S} = (N_{1} + N_{2})^{-1} \cdot (N_1\mathcal{S}_1 + N_2\mathcal{S}_2)\). Preto tiež platí, že \[ (N_1 + N_2) \boldsymbol{1}_n^\top \mathcal{S} \boldsymbol{1}_n \sim W_{1}(\boldsymbol{1}_n^\top \Sigma \boldsymbol{1}_n, N_1 + N_2 - 2), \] čo je vlastne \(\chi^2\) rozdelenie s \(N_1 + N_2 - 2\) stupňami voľnosti (i.e., degrees of freedom).
Test nulovej hypotézy \(H_0\) lze uskutočniť pomocou testovej štatistiky (analogicky, ako v jednorozmernom prípade u klasického \(t\)-testu) \[ T = \frac{N_1 N_2}{N_1 + N_2} (N_1 + N_2 - 2) \cdot \frac{\Big[ \boldsymbol{1}_n^\top (\overline{\boldsymbol{X}}_{N_1} - \overline{\boldsymbol{Y}}_{N_2}) \Big]^2}{\boldsymbol{1}_n^\top \mathcal{S} \boldsymbol{1}_n}, \] ktorá ma za platnosti nulovej hypotézy Hotellingovo \(T^2\) rozdelenie s \(1\) a \(N_1 + N_2 - 2\) stupňami voľnosti (čo je vlastne taktiež Fisherovo \(F\) rozdelenie s \(1\) a \(N_1 + N_2 - 2\) stupňami voľnosti).
V prípade, že štatisticky test rovnobežnosti profilov zamietne nulovú hypotézu, tak následný štatistický model by buď mal zahrnúť interakčný člen medzi časom (jednotlivými meraniami vrámci uvažovaného follow-up obdobia) a príslušnými skupinami, prípadne (ako alternatívu) uvažovať dva samostatné štatistické modely – jeden pre každú z dvoch skupín.
V opačnom prípade, ak nulová hypotéza rovnobežnosti profilov
zamietnutá nie je, tak je následne možne pokúsiť sa zo spoločných dat
(obe uvažovane skupiny súčastne) urobiť inferenciu ohľadom celkového
effektu (napr. nejakej konkrétnej liečby) v rámci uvažovaného času (a to
aj v prípade, že jednotlivé úrovne profilov sú vzájomne odlišné,
podstatné je, že sú, zo štatistického hľadiska rovnobežné).
Takáto nulová hypotéza nulovosti príslušného efektu môže byť matematicky vyjadrená ako \[ H_0: \mathcal{C}(\boldsymbol{\mu}_1 + \boldsymbol{\mu}_2) = \boldsymbol{0}, \] kde matica \(\mathcal{C} \in \mathbb{R}^{(n - 1) \times n}\) je matica vájomných kontrastov definovaná predpisom \[ \mathbb{C} = \left( \begin{array}{ccccc} 1 & -1 & 0 & \dots & 0\\ 0 & 1 & -1 & \dots & 0\\ \vdots & \vdots & \ddots & \ddots & \vdots\\ 0 & 0 & \dots & 1 & -1 \end{array} \right). \]
Z formálneho hľadiska sa vpodstate jedná o testovanie nulovosti jednotlivých priemerných inkrementov (t.j., priemerné inkrementy vrámci združeného – priemerného profilu). Pre priemerný profil (v prípade datového súboru pacientov so sklerózou sa vlastne jedná o model, ktorý neberie do úvahy informáciu o pohlaví pacienta) platí, že \[ \overline{\boldsymbol{X}}_{N_1 + N_2} = \frac{N_1 \overline{\boldsymbol{X}}_{N_1} + N_2 \overline{\boldsymbol{Y}}_{N_2}}{N_1 + N_2} \sim N_n \Big( \frac{N_1 \boldsymbol{\mu}_1 + N_2 \boldsymbol{\mu}_2}{N_1 + N_2}, \frac{1}{N_1 + N_2} \Sigma \Big). \]
Ak sú longitudinálne profily v rámci oboch skupín vzájomne paralelné
(nulová hypotéza o rovnobežnosti profilov nebola zamietnutá), tak za
platnosti nulovej hypotézy \(H_0\)
(t.j. oba profily sú navyše aj horizontálne) jednoducho platí, že \[
\mathcal{C} \Big( \frac{N_1 \boldsymbol{\mu}_1 + N_2
\boldsymbol{\mu}_2}{N_1 + N_2}\Big) = 0
\] a z vlastnosti normálneho rozdelenia aj \[
\sqrt{N_1 + N_2} \mathcal{C} \overline{\boldsymbol{X}}_{N_1 + N_2} \sim
N_{n}(\boldsymbol{0}, \mathcal{C}^\top \Sigma \mathcal{C})
\] a s využitím príslušnej výberovej matice \(\mathcal{S}\) (odhad variančnej-kovariačnej
matice \(\Sigma\)) môžeme definovať
testovú štatistiku \[
T = (N_1 + N_2 -2) \big( \mathcal{C} \overline{\boldsymbol{X}}_{N_1 +
N_2} \big)^\top \Big(\mathcal{C}^\top
\mathcal{S}\mathcal{C} \Big)^{-1}
\mathcal{C}\overline{\boldsymbol{X}}_{N_1 + N_2},
\] ktorá má za platnosti nulovej hypotézy \(H_0\) opäť Hotellingovo \(T^2\) rozdelenie s \(n - 1\) a \(N_1 +
N_2 - 2\) stupňami voľnosti (resp. Fisherovo \(F\) rozdelenie s \(n - 1\) a \(N_1 +
N_2 - n\) stupňami voľnosti).
Použijte vhodný datový súbor (napr. datový súbor pacientov so sklerózou multiplex) a pomocou Vami zvoleného programu (napr. SAS, R, alebo Python) explicitne otestujte (t.j. implementujte) štatistický test: