Làm sạch số liệu: ktra số dị biệt/ngoại lai/đột biến



tải về 3.19 Mb.
Chuyển đổi dữ liệu18.03.2024
Kích3.19 Mb.
#56876
dùng-spss (1)

Làm sạch số liệu: ktra số dị biệt/ngoại lai/đột biến (outliers -> ảnh hưởng đến PP chuẩn)


Analyze => descriptive statistics => explore


Plots => => continue => ok

  • Kết quả=> file => save as

  • Boxplot => bản ghi 13 39 => outliers

Extreme value: top 5 giá trị min, max
Histogram, kiểm định PP chuẩn bằng PP Smirnov => cột sig (test of normality)
Giả thuyết : Ho: đồ thi tiệm cận PP chuẩn, H1: ko tiệm cận
Sig-smirnov < anpha=0.05 => Bác bỏ Ho, chấp nhận H1
Sig-smirnov >= 0.05 => chấp nhận Ho

Muốn xử lý từ ko tiệm cận => tiệm cận PP chuẩn:


  • C1 chuyển đổi biến

  • C2 loại bỏ outliers : bản ghi số 13 và 39 (thu nhập =18) – xoá bản ghi có stt lớn trước (chọn bản ghi => clear)



Tham số:

  • biến định lượng : Analyze => des statis => descritives=> cửa sổ


Variance: phương sai, Std. Dev: độ lệch chuẩn, Range= max-min, MAD (mean absolute deviation): độ lệch tuyệt đối bình quân, Median: trung vị, Mode
Dístribution(phân bố): skewness(lệch trái lệch phải), kurtosis(đồ thị nhọn/tù), normal (pp chuẩn, min=median)



Descriptive Statistics




N

Minimum

Maximum

Mean

Std. Deviation

Skewness

Kurtosis

Statistic

Statistic

Statistic

Statistic

Statistic

Statistic

Std. Error

Statistic

Std. Error

Thu nhập

42

2.50

15.00

7.4167

3.57388

.743

.365

-.439

.717

Tiêu dùng

42

1.80

9.00

4.3143

1.78552

.689

.365

-.125

.717

Valid N (listwise)

42


























  • biến định tính: ana => des statis => frequencies



  • Tỷ lệ % tích luỹ: cumulative

  • Tỷ lệ % hợp lệ: valid

Bảng biểu thống kê: analyze => custom tables/ custom tables


  • Bảng đơn bao gồm các biến định lượng (thu nhập, tiêu dùng): analyze=> custom tables => custom tables



  • Bảng đơn bao gồm các biến định tính: reset => all tabs

Tính tổng cộng: chọn biến => categories anh total


  • Bảng kết hợp các biến định tính và định lượng:






Thu nhập

Tiêu dùng

Mean

Maximum

Minimum

Standard Deviation

Mean

Maximum

Minimum

Standard Deviation

Giới tính

Nữ

7.68

15.00

3.00

3.44

4.55

9.00

2.00

1.81

Nam

7.18

15.00

2.50

3.75

4.10

7.80

1.80

1.78

BQ chung

7.42

15.00

2.50

3.57

4.31

9.00

1.80

1.79

TĐ học vấn

Tiểu học

7.60

12.00

5.00

3.03

4.41

6.50

2.50

1.37

THCS

7.63

15.00

2.50

4.36

4.28

7.80

1.80

2.09

THPT

7.00

14.00

3.00

3.19

4.19

7.00

2.00

1.47

Trên THPT

7.33

14.00

4.00

3.72

4.47

9.00

2.00

2.48

BQ chung

7.42

15.00

2.50

3.57

4.31

9.00

1.80

1.79

Nghề nghiệp

Phi nông nghiệp

9.40

15.00

4.00

3.41

5.31

9.00

2.50

1.69

Nông nghiệp

5.61

14.00

2.50

2.70

3.40

7.00

1.80

1.34

BQ chung

7.42

15.00

2.50

3.57

4.31

9.00

1.80

1.79

Ưa thích công việc

Rất ghét

4.50

10.00

2.50

2.78

2.97

6.00

1.80

1.56

Ghét

5.17

11.00

3.00

2.32

3.09

6.50

2.00

1.40

Phân vân

7.31

8.00

6.00

.80

4.29

4.80

3.50

.42

Thích

7.86

14.00

4.00

3.33

4.47

7.00

2.50

1.38

Rất thích

11.63

15.00

6.00

3.50

6.51

9.00

4.00

1.66

BQ chung

7.42

15.00

2.50

3.57

4.31

9.00

1.80

1.79

  • Bảng chéo (biến định tính): ana => des sta => cross table



Graphs=> legacy dialogs=> bar, pie, ….. (biến định lượng)



Vẽ đồ thị phân tán điểm mqh giữa thu nhập và tiêu dùng (dot/ scatter- simple): TN=> TD



Đồ thi cơ cấu

Bar chart => TN theo giơi tính


Ptich thống kê so sánh: (comparison statis..)


Bài 2:** so sánh giá trị bình quân của 2 mẫu độc lập (2 independent samples)

  • Kiểm định giả thuyết thống kê (Hypothesis tests) => Student distribution: t tests

Bước 1: kiểm định phương sai của 2 mẫu độc lập
+ Ho: Var1 = Var2, H1: Var1 # Var2 (var1 và var2 là Phương sai về doanh thu tiêu thụ của cửa hàng 1 & 2)
Analyze/ Compare Means/ independent samples T test => đưa biến định lượng vào test variable, => define groups

Gr Statistics => thống kê mô tả
Independent Sample test => kiểm định phg sai và kiểm định means
ứng dụng kiểm định levene để kđ Phương sai của 2 mẫu

  • Căn cứ vào gtri cột sig và so sánh nó với mức ý nghĩa thống kế anpha=0.05

+ nếu sig>=0.05 => chấp nhận Ho => ph sai bằng nhau
+ sig <= 0.05 => chấp nhận H1 => phg sai 2 mẫu khác biệt đáng kể vs mức độ tin cậy 95%
Sig = 0.216>0.05=> chấp nhận Ho => 95% => phg sai của 2 mẫu độc lập ko có sự khác biệt đáng kể
Bước 2: kđ gtri bình quân của 2 mẫu độc lập

  • Ho: M1=M2, H1: M1 # M2

  • ứng dụng PP kđ T test for equality of means

  • so sánh sig (2 tailed) với anpha = 0.05

lấy gtri dòng 1 hoặc 2 phụ thuộc vào kết quả kđ phg sai

  • nếu phg sai 2 mẫu bằng nhau thì lấy gtri cột sig (2 tailed) dòng 1, so sánh vs anpha = 0.05 và ngc lại

(Vì kết quả kđ phg sai bằng nhau nên chúng ta so sánh gtri cột sig (2 tailed) dòng 1 với anpha=0.05
Sig(2 tailed) dòng 1= 0.126> anpha=0.05

  • chấp nhận Ho => mức độ tin cậy 95% cta luôn khẳng định rằng doanh thu tiêu thụ bình quân của 2 cửa hàng có sự khác biệt ko đáng kể

  • giám đốc DN quan tâm đến 2 cửa hàng như nhau)

Bài 3** so sánh giá trị bình quân của 3 mẫu độc lập trở lên

  • PP kiểm định Oneway ANOVA => F test

Ho: M1=M2=M3=M4 (muy) (tiêu thụ bình quân của 4 mùa tương ứng X, H, T Đ)
H1: có ít nhất 1 M khác biệt đáng kể vs các M còn lại
Ana/ Compare means/ oneway anova
=> options => Post Hoc=> LSD: least square deviation (độ lệch bình phg nhỏ nhất)

+ Bảng anova (sig) sig=0.001<0.05 => bác bỏ Ho, chấp nhận H1 => vs mức độ tin cậy 95%, cta luôn kđinh rằng có ít nhất 1 mùa có mức độ tiêu độ khác biệt đáng kể vs 3 mùa còn lại


+ Bảng multiple comparisons: so sánh từng cặp
(Chỗ nào có dấu * ở mean differ thì có khác biệt đáng kể)

  • Vs 95%, cta luôn kđ rằng mùa đông có lượng tiêu thụ bình quân thấp hơn đáng kể so với 3 mùa còn lại

  • Vs DN đối với mùa đông ko cần dự trữ nhiều, thuê nhiều nhân công

Pitch tương quan: compare means, correlate => bivariate


Xác định mối tg quan giữa TN và TD

Analyze -> correlate=> bivariate




Correlations




Thu nhập

Tiêu dùng

Thu nhập

Pearson Correlation

1

.967**

Sig. (2-tailed)




.000

N

42

42

Tiêu dùng

Pearson Correlation

.967**

1

Sig. (2-tailed)

.000




N

42

42

**. Correlation is significant at the 0.01 level (2-tailed).

Sd hệ số tương quan bội pearson corre để xác đinhj tương quan

+ Cùng độ 0 =< /r/ <= 1

0.9

+ Chiều tương quan r>0 => thuận chiều



  • Hồi quy: Regression => hồi quy:

  • Hồi quy tuyến tính đơn

+ Biến phụ thuộc là biến số liên tục/định lượng
+ Các biến số liên tục trong MH tiệm cận PP chuẩn (nếu ko chuẩn phải chuyển đổi biến) => cả 2 biến GDP và Tel đều tiệm cận PP chuẩn
+ Phần dư tiệm cận phân phối chuẩn
+ ko có ngoại lại => cả 2 đều ko có số ngoại lai
Bước 1: viết ptr mô hình hồi quy mẫu
Bo: constant intercept, B1: slope, Ei: residual

=> ktra PP của phần dư

  • Hồi quy tuyến tính đa biến

+ Biến phụ thuộc là biến số liên tục
+ Các biến số liên tục tiệm cận PP chuẩn
+ ko có các khuyết tật của MH (đa cộng tuyến (Multicollinearity – Các biến độc lập tg quan chặt vs nhau; hệ số tg quan bội 0.5<= /r/<=0.7, /r/>=0.6), Phương sai thay đổi, …)
+ Dung lượng mẫu: N>50+8m (m là số biến độc lập)
B1: XD MH thuyết về các yếu tố tiềm năng ảnh hưởng đến sản lượng lúa của HGĐ
B2:
Bài 6:
B1: Viết Phương trình của mô hình hồi quy tuyến tính mẫu:
Output= Bo + B1Land + B2Fertilizer + B3Labour + B4Machine + B5Plot + B6Landclass + B7Age + B8HHsize + B9Region + Ei
B2: kiểm tra PP chuẩn cho tất cả các biến định lượng trong mô hình pt (1)
Output ->…….-> HHsize (9 biến)

  • Explore: Ana/ Des Sta/explore/ dependent list (9 biến)/ plots: histogram, normality plots with tests

  • Histogram: Graphs/ Legacy Dialogs/ Histogram: kiểm định smirnov (sig)


Transform biến cũ sang biến mới tiệm cận PP chuẩn: Transform/ compute vảriable

Target variable(biến ms): Ln output=ln(output)
Viết lại Phương trình
LnOutput= Bo + B1.LnLand + B2.LnFertilizer + B3.LnLabour + B4.LnMachine + B5.LnPlot + B6Landclass + B7Age + B8HHsize + B9Region + Ei (2)
B3: Kiểm tra số ngoại lại cho các biến định lượng trong ptr 2
B4: Chạy mô hình pt 2 và ktra các khuyết tật của MH
***Ana/ Regression/Linear
Dependent: LnOutput
Independent(s): 9 biến LnLand->……Region


  • Colli Diano: ktra htg đa cộng tuyến

(VIF- Variance Inflation Factor: nhân tố phg sai phóng đại)

  • Durbin Watson: ktra hiện tượng tự tg quan phần dư


Nor Proba plot: vẽ đồ thi ktra PP chuẩn của phần dư
*** Ktra các khuyết tật của MH tr 2
Dựa vào bảng Coefficients (cột VIF)
VIF>=10 => có hiện tượng đa cộng tuyến
Khắc phục => Loại dần từng biến có VIF >=10 và Max khỏi mô hình => loại bỏ biến LnLand

  • Ktra hiện tg tự tg quan của phần dư (bảng Model Summary -> cột durbin Watson)

1 ko có htg tự tg quan
B5: Ktr sự tồn tại và phù hợp của mô hình

  • Ktr sự tồn tại

Bảng Anova(sig)
Ho: B1=B2=….
H1: có ít nhất Bj #0
Vì sig =>………mô hình tồn tại
(Nếu sig>=0.05 => chấp nhận Ho=> mô hình luôn luôn ko tồn tại => ko xđ đc các yếu tố ảnh hưởng đến biến phụ thuộc (lnOutput))

  • Kiểm định và ktr sự phù hợp và tin cậy của MH

Bảng Model Summary(cột adjust R square)
R2hc(hệ số tg quan hiệu chỉnh) => trong các yếu tố ảnh hưởng sản lượng lúa HGĐ, các yếu tố trong mô hình ptr 2 đã giải thích…% sự thay đổi sản lượng lúa, còn lại (1-Rhc)%.........yếu tố

  • Mh tương đối phù hợp và đáng tin cậy

B6: XĐ sự tồn tại của các hệ số hồi quy
8 cặp giả thuyết kiểm định Ho: B1=0, H1: B1#0………Ho:B8…..
Dựa vào bảng coefficients(cột sig)
So sánh anpha=0.05
Sig<0.05 => bác bỏ h0, chấp nhận h1
Biến phụ thuộc => B1 sẽ luôn #0 => biến đó có ảnh hưởng đáng kể đến sản lượng

Trong các biến ArH đáng kể, xếp hạng các biến(biến nào ARH lớn nhất,…..- tầm qtrong của các yếu tố AH


Viết ptr MH hồi quy
Ptich tác động biên (hệ số co giãn)
Đề xuất giải pháp

tải về 3.19 Mb.

Chia sẻ với bạn bè của bạn:




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương