Làm sạch số liệu: ktra số dị biệt/ngoại lai/đột biến (outliers -> ảnh hưởng đến PP chuẩn)
Analyze => descriptive statistics => explore
Plots => => continue => ok
Kết quả=> file => save as
Boxplot => bản ghi 13 39 => outliers
Extreme value: top 5 giá trị min, max
Histogram, kiểm định PP chuẩn bằng PP Smirnov => cột sig (test of normality)
Giả thuyết : Ho: đồ thi tiệm cận PP chuẩn, H1: ko tiệm cận
Sig-smirnov < anpha=0.05 => Bác bỏ Ho, chấp nhận H1
Sig-smirnov >= 0.05 => chấp nhận Ho
Muốn xử lý từ ko tiệm cận => tiệm cận PP chuẩn:
C1 chuyển đổi biến
C2 loại bỏ outliers : bản ghi số 13 và 39 (thu nhập =18) – xoá bản ghi có stt lớn trước (chọn bản ghi => clear)
Tham số:
biến định lượng : Analyze => des statis => descritives=> cửa sổ
Variance: phương sai, Std. Dev: độ lệch chuẩn, Range= max-min, MAD (mean absolute deviation): độ lệch tuyệt đối bình quân, Median: trung vị, Mode
Dístribution(phân bố): skewness(lệch trái lệch phải), kurtosis(đồ thị nhọn/tù), normal (pp chuẩn, min=median)
Descriptive Statistics
|
|
N
|
Minimum
|
Maximum
|
Mean
|
Std. Deviation
|
Skewness
|
Kurtosis
|
Statistic
|
Statistic
|
Statistic
|
Statistic
|
Statistic
|
Statistic
|
Std. Error
|
Statistic
|
Std. Error
|
Thu nhập
|
42
|
2.50
|
15.00
|
7.4167
|
3.57388
|
.743
|
.365
|
-.439
|
.717
|
Tiêu dùng
|
42
|
1.80
|
9.00
|
4.3143
|
1.78552
|
.689
|
.365
|
-.125
|
.717
|
Valid N (listwise)
|
42
|
|
|
|
|
|
|
|
|
biến định tính: ana => des statis => frequencies
Tỷ lệ % tích luỹ: cumulative
Tỷ lệ % hợp lệ: valid
Bảng biểu thống kê: analyze => custom tables/ custom tables
Bảng đơn bao gồm các biến định lượng (thu nhập, tiêu dùng): analyze=> custom tables => custom tables
Bảng đơn bao gồm các biến định tính: reset => all tabs
Tính tổng cộng: chọn biến => categories anh total
Bảng kết hợp các biến định tính và định lượng:
|
Thu nhập
|
Tiêu dùng
|
Mean
|
Maximum
|
Minimum
|
Standard Deviation
|
Mean
|
Maximum
|
Minimum
|
Standard Deviation
|
Giới tính
|
Nữ
|
7.68
|
15.00
|
3.00
|
3.44
|
4.55
|
9.00
|
2.00
|
1.81
|
Nam
|
7.18
|
15.00
|
2.50
|
3.75
|
4.10
|
7.80
|
1.80
|
1.78
|
BQ chung
|
7.42
|
15.00
|
2.50
|
3.57
|
4.31
|
9.00
|
1.80
|
1.79
|
TĐ học vấn
|
Tiểu học
|
7.60
|
12.00
|
5.00
|
3.03
|
4.41
|
6.50
|
2.50
|
1.37
|
THCS
|
7.63
|
15.00
|
2.50
|
4.36
|
4.28
|
7.80
|
1.80
|
2.09
|
THPT
|
7.00
|
14.00
|
3.00
|
3.19
|
4.19
|
7.00
|
2.00
|
1.47
|
Trên THPT
|
7.33
|
14.00
|
4.00
|
3.72
|
4.47
|
9.00
|
2.00
|
2.48
|
BQ chung
|
7.42
|
15.00
|
2.50
|
3.57
|
4.31
|
9.00
|
1.80
|
1.79
|
Nghề nghiệp
|
Phi nông nghiệp
|
9.40
|
15.00
|
4.00
|
3.41
|
5.31
|
9.00
|
2.50
|
1.69
|
Nông nghiệp
|
5.61
|
14.00
|
2.50
|
2.70
|
3.40
|
7.00
|
1.80
|
1.34
|
BQ chung
|
7.42
|
15.00
|
2.50
|
3.57
|
4.31
|
9.00
|
1.80
|
1.79
|
Ưa thích công việc
|
Rất ghét
|
4.50
|
10.00
|
2.50
|
2.78
|
2.97
|
6.00
|
1.80
|
1.56
|
Ghét
|
5.17
|
11.00
|
3.00
|
2.32
|
3.09
|
6.50
|
2.00
|
1.40
|
Phân vân
|
7.31
|
8.00
|
6.00
|
.80
|
4.29
|
4.80
|
3.50
|
.42
|
Thích
|
7.86
|
14.00
|
4.00
|
3.33
|
4.47
|
7.00
|
2.50
|
1.38
|
Rất thích
|
11.63
|
15.00
|
6.00
|
3.50
|
6.51
|
9.00
|
4.00
|
1.66
|
BQ chung
|
7.42
|
15.00
|
2.50
|
3.57
|
4.31
|
9.00
|
1.80
|
1.79
|
Bảng chéo (biến định tính): ana => des sta => cross table
Graphs=> legacy dialogs=> bar, pie, ….. (biến định lượng)
Vẽ đồ thị phân tán điểm mqh giữa thu nhập và tiêu dùng (dot/ scatter- simple): TN=> TD
Đồ thi cơ cấu
Bar chart => TN theo giơi tính
Ptich thống kê so sánh: (comparison statis..)
Bài 2:** so sánh giá trị bình quân của 2 mẫu độc lập (2 independent samples)
Kiểm định giả thuyết thống kê (Hypothesis tests) => Student distribution: t tests
Bước 1: kiểm định phương sai của 2 mẫu độc lập
+ Ho: Var1 = Var2, H1: Var1 # Var2 (var1 và var2 là Phương sai về doanh thu tiêu thụ của cửa hàng 1 & 2)
Analyze/ Compare Means/ independent samples T test => đưa biến định lượng vào test variable, => define groups
Gr Statistics => thống kê mô tả
Independent Sample test => kiểm định phg sai và kiểm định means
ứng dụng kiểm định levene để kđ Phương sai của 2 mẫu
Căn cứ vào gtri cột sig và so sánh nó với mức ý nghĩa thống kế anpha=0.05
+ nếu sig>=0.05 => chấp nhận Ho => ph sai bằng nhau
+ sig <= 0.05 => chấp nhận H1 => phg sai 2 mẫu khác biệt đáng kể vs mức độ tin cậy 95%
Sig = 0.216>0.05=> chấp nhận Ho => 95% => phg sai của 2 mẫu độc lập ko có sự khác biệt đáng kể
Bước 2: kđ gtri bình quân của 2 mẫu độc lập
ứng dụng PP kđ T test for equality of means
so sánh sig (2 tailed) với anpha = 0.05
lấy gtri dòng 1 hoặc 2 phụ thuộc vào kết quả kđ phg sai
nếu phg sai 2 mẫu bằng nhau thì lấy gtri cột sig (2 tailed) dòng 1, so sánh vs anpha = 0.05 và ngc lại
(Vì kết quả kđ phg sai bằng nhau nên chúng ta so sánh gtri cột sig (2 tailed) dòng 1 với anpha=0.05
Sig(2 tailed) dòng 1= 0.126> anpha=0.05
chấp nhận Ho => mức độ tin cậy 95% cta luôn khẳng định rằng doanh thu tiêu thụ bình quân của 2 cửa hàng có sự khác biệt ko đáng kể
giám đốc DN quan tâm đến 2 cửa hàng như nhau)
Bài 3** so sánh giá trị bình quân của 3 mẫu độc lập trở lên
PP kiểm định Oneway ANOVA => F test
Ho: M1=M2=M3=M4 (muy) (tiêu thụ bình quân của 4 mùa tương ứng X, H, T Đ)
H1: có ít nhất 1 M khác biệt đáng kể vs các M còn lại
Ana/ Compare means/ oneway anova
=> options => Post Hoc=> LSD: least square deviation (độ lệch bình phg nhỏ nhất)
+ Bảng anova (sig) sig=0.001<0.05 => bác bỏ Ho, chấp nhận H1 => vs mức độ tin cậy 95%, cta luôn kđinh rằng có ít nhất 1 mùa có mức độ tiêu độ khác biệt đáng kể vs 3 mùa còn lại
+ Bảng multiple comparisons: so sánh từng cặp
(Chỗ nào có dấu * ở mean differ thì có khác biệt đáng kể)
Vs 95%, cta luôn kđ rằng mùa đông có lượng tiêu thụ bình quân thấp hơn đáng kể so với 3 mùa còn lại
Vs DN đối với mùa đông ko cần dự trữ nhiều, thuê nhiều nhân công
Pitch tương quan: compare means, correlate => bivariate
Xác định mối tg quan giữa TN và TD
Analyze -> correlate=> bivariate
Correlations
|
|
Thu nhập
|
Tiêu dùng
|
Thu nhập
|
Pearson Correlation
|
1
|
.967**
|
Sig. (2-tailed)
|
|
.000
|
N
|
42
|
42
|
Tiêu dùng
|
Pearson Correlation
|
.967**
|
1
|
Sig. (2-tailed)
|
.000
|
|
N
|
42
|
42
|
**. Correlation is significant at the 0.01 level (2-tailed).
|
Sd hệ số tương quan bội pearson corre để xác đinhj tương quan
+ Cùng độ 0 =< /r/ <= 1
0.9
+ Chiều tương quan r>0 => thuận chiều
Hồi quy: Regression => hồi quy:
Hồi quy tuyến tính đơn
+ Biến phụ thuộc là biến số liên tục/định lượng
+ Các biến số liên tục trong MH tiệm cận PP chuẩn (nếu ko chuẩn phải chuyển đổi biến) => cả 2 biến GDP và Tel đều tiệm cận PP chuẩn
+ Phần dư tiệm cận phân phối chuẩn
+ ko có ngoại lại => cả 2 đều ko có số ngoại lai
Bước 1: viết ptr mô hình hồi quy mẫu
Bo: constant intercept, B1: slope, Ei: residual
=> ktra PP của phần dư
Hồi quy tuyến tính đa biến
+ Biến phụ thuộc là biến số liên tục
+ Các biến số liên tục tiệm cận PP chuẩn
+ ko có các khuyết tật của MH (đa cộng tuyến (Multicollinearity – Các biến độc lập tg quan chặt vs nhau; hệ số tg quan bội 0.5<= /r/<=0.7, /r/>=0.6), Phương sai thay đổi, …)
+ Dung lượng mẫu: N>50+8m (m là số biến độc lập)
B1: XD MH thuyết về các yếu tố tiềm năng ảnh hưởng đến sản lượng lúa của HGĐ
B2:
Bài 6:
B1: Viết Phương trình của mô hình hồi quy tuyến tính mẫu:
Output= Bo + B1Land + B2Fertilizer + B3Labour + B4Machine + B5Plot + B6Landclass + B7Age + B8HHsize + B9Region + Ei
B2: kiểm tra PP chuẩn cho tất cả các biến định lượng trong mô hình pt (1)
Output ->…….-> HHsize (9 biến)
Explore: Ana/ Des Sta/explore/ dependent list (9 biến)/ plots: histogram, normality plots with tests
Histogram: Graphs/ Legacy Dialogs/ Histogram: kiểm định smirnov (sig)
Transform biến cũ sang biến mới tiệm cận PP chuẩn: Transform/ compute vảriable
Target variable(biến ms): Ln output=ln(output)
Viết lại Phương trình
LnOutput= Bo + B1.LnLand + B2.LnFertilizer + B3.LnLabour + B4.LnMachine + B5.LnPlot + B6Landclass + B7Age + B8HHsize + B9Region + Ei (2)
B3: Kiểm tra số ngoại lại cho các biến định lượng trong ptr 2
B4: Chạy mô hình pt 2 và ktra các khuyết tật của MH
***Ana/ Regression/Linear
Dependent: LnOutput
Independent(s): 9 biến LnLand->……Region
Colli Diano: ktra htg đa cộng tuyến
(VIF- Variance Inflation Factor: nhân tố phg sai phóng đại)
Durbin Watson: ktra hiện tượng tự tg quan phần dư
Nor Proba plot: vẽ đồ thi ktra PP chuẩn của phần dư
*** Ktra các khuyết tật của MH tr 2
Dựa vào bảng Coefficients (cột VIF)
VIF>=10 => có hiện tượng đa cộng tuyến
Khắc phục => Loại dần từng biến có VIF >=10 và Max khỏi mô hình => loại bỏ biến LnLand
Ktra hiện tg tự tg quan của phần dư (bảng Model Summary -> cột durbin Watson)
1 ko có htg tự tg quan
B5: Ktr sự tồn tại và phù hợp của mô hình
Bảng Anova(sig)
Ho: B1=B2=….
H1: có ít nhất Bj #0
Vì sig =>………mô hình tồn tại
(Nếu sig>=0.05 => chấp nhận Ho=> mô hình luôn luôn ko tồn tại => ko xđ đc các yếu tố ảnh hưởng đến biến phụ thuộc (lnOutput))
Kiểm định và ktr sự phù hợp và tin cậy của MH
Bảng Model Summary(cột adjust R square)
R2hc(hệ số tg quan hiệu chỉnh) => trong các yếu tố ảnh hưởng sản lượng lúa HGĐ, các yếu tố trong mô hình ptr 2 đã giải thích…% sự thay đổi sản lượng lúa, còn lại (1-Rhc)%.........yếu tố
Mh tương đối phù hợp và đáng tin cậy
B6: XĐ sự tồn tại của các hệ số hồi quy
8 cặp giả thuyết kiểm định Ho: B1=0, H1: B1#0………Ho:B8…..
Dựa vào bảng coefficients(cột sig)
So sánh anpha=0.05
Sig<0.05 => bác bỏ h0, chấp nhận h1
Biến phụ thuộc => B1 sẽ luôn #0 => biến đó có ảnh hưởng đáng kể đến sản lượng
Trong các biến ArH đáng kể, xếp hạng các biến(biến nào ARH lớn nhất,…..- tầm qtrong của các yếu tố AH
Viết ptr MH hồi quy
Ptich tác động biên (hệ số co giãn)
Đề xuất giải pháp
3>
Chia sẻ với bạn bè của bạn: |