Làm sạch số liệu: ktra số dị biệt/ngoại lai/đột biến

tải về 3.19 Mb.

Chuyển đổi dữ liệu	18.03.2024
Kích	3.19 Mb.
	#56876

dùng-spss (1)

Làm sạch số liệu: ktra số dị biệt/ngoại lai/đột biến (outliers -> ảnh hưởng đến PP chuẩn)

Analyze => descriptive statistics => explore

Plots => => continue => ok

Kết quả=> file => save as
Boxplot => bản ghi 13 39 => outliers

Extreme value: top 5 giá trị min, max
Histogram, kiểm định PP chuẩn bằng PP Smirnov => cột sig (test of normality)
Giả thuyết : Ho: đồ thi tiệm cận PP chuẩn, H1: ko tiệm cận
Sig-smirnov < anpha=0.05 => Bác bỏ Ho, chấp nhận H1
Sig-smirnov >= 0.05 => chấp nhận Ho

Muốn xử lý từ ko tiệm cận => tiệm cận PP chuẩn:

C1 chuyển đổi biến
C2 loại bỏ outliers : bản ghi số 13 và 39 (thu nhập =18) – xoá bản ghi có stt lớn trước (chọn bản ghi => clear)

Tham số:

biến định lượng : Analyze => des statis => descritives=> cửa sổ

Variance: phương sai, Std. Dev: độ lệch chuẩn, Range= max-min, MAD (mean absolute deviation): độ lệch tuyệt đối bình quân, Median: trung vị, Mode
Dístribution(phân bố): skewness(lệch trái lệch phải), kurtosis(đồ thị nhọn/tù), normal (pp chuẩn, min=median)

Descriptive Statistics
	N	Minimum	Maximum	Mean	Std. Deviation	Skewness		Kurtosis
	Statistic	Statistic	Statistic	Statistic	Statistic	Statistic	Std. Error	Statistic	Std. Error
Thu nhập	42	2.50	15.00	7.4167	3.57388	.743	.365	-.439	.717
Tiêu dùng	42	1.80	9.00	4.3143	1.78552	.689	.365	-.125	.717
Valid N (listwise)	42

biến định tính: ana => des statis => frequencies

Tỷ lệ % tích luỹ: cumulative
Tỷ lệ % hợp lệ: valid

Bảng biểu thống kê: analyze => custom tables/ custom tables

Bảng đơn bao gồm các biến định lượng (thu nhập, tiêu dùng): analyze=> custom tables => custom tables

Bảng đơn bao gồm các biến định tính: reset => all tabs

Tính tổng cộng: chọn biến => categories anh total

Bảng kết hợp các biến định tính và định lượng:

		Thu nhập					Tiêu dùng
		Mean	Maximum	Minimum	Standard Deviation	Mean		Maximum	Minimum	Standard Deviation
Giới tính	Nữ	7.68	15.00	3.00	3.44	4.55		9.00	2.00	1.81
	Nam	7.18	15.00	2.50	3.75	4.10		7.80	1.80	1.78
	BQ chung	7.42	15.00	2.50	3.57	4.31		9.00	1.80	1.79
TĐ học vấn	Tiểu học	7.60	12.00	5.00	3.03	4.41		6.50	2.50	1.37
	THCS	7.63	15.00	2.50	4.36	4.28		7.80	1.80	2.09
	THPT	7.00	14.00	3.00	3.19	4.19		7.00	2.00	1.47
	Trên THPT	7.33	14.00	4.00	3.72	4.47		9.00	2.00	2.48
	BQ chung	7.42	15.00	2.50	3.57	4.31		9.00	1.80	1.79
Nghề nghiệp	Phi nông nghiệp	9.40	15.00	4.00	3.41	5.31		9.00	2.50	1.69
	Nông nghiệp	5.61	14.00	2.50	2.70	3.40		7.00	1.80	1.34
	BQ chung	7.42	15.00	2.50	3.57	4.31		9.00	1.80	1.79
Ưa thích công việc	Rất ghét	4.50	10.00	2.50	2.78	2.97		6.00	1.80	1.56
	Ghét	5.17	11.00	3.00	2.32	3.09		6.50	2.00	1.40
	Phân vân	7.31	8.00	6.00	.80	4.29		4.80	3.50	.42
	Thích	7.86	14.00	4.00	3.33	4.47		7.00	2.50	1.38
	Rất thích	11.63	15.00	6.00	3.50	6.51		9.00	4.00	1.66
	BQ chung	7.42	15.00	2.50	3.57	4.31		9.00	1.80	1.79

Bảng chéo (biến định tính): ana => des sta => cross table

Graphs=> legacy dialogs=> bar, pie, ….. (biến định lượng)

Vẽ đồ thị phân tán điểm mqh giữa thu nhập và tiêu dùng (dot/ scatter- simple): TN=> TD

Đồ thi cơ cấu

Bar chart => TN theo giơi tính

Ptich thống kê so sánh: (comparison statis..)

Bài 2:** so sánh giá trị bình quân của 2 mẫu độc lập (2 independent samples)

Kiểm định giả thuyết thống kê (Hypothesis tests) => Student distribution: t tests

Bước 1: kiểm định phương sai của 2 mẫu độc lập
+ Ho: Var1 = Var2, H1: Var1 # Var2 (var1 và var2 là Phương sai về doanh thu tiêu thụ của cửa hàng 1 & 2)
Analyze/ Compare Means/ independent samples T test => đưa biến định lượng vào test variable, => define groups

Gr Statistics => thống kê mô tả
Independent Sample test => kiểm định phg sai và kiểm định means
ứng dụng kiểm định levene để kđ Phương sai của 2 mẫu

Căn cứ vào gtri cột sig và so sánh nó với mức ý nghĩa thống kế anpha=0.05

+ nếu sig>=0.05 => chấp nhận Ho => ph sai bằng nhau
+ sig <= 0.05 => chấp nhận H1 => phg sai 2 mẫu khác biệt đáng kể vs mức độ tin cậy 95%
Sig = 0.216>0.05=> chấp nhận Ho => 95% => phg sai của 2 mẫu độc lập ko có sự khác biệt đáng kể
Bước 2: kđ gtri bình quân của 2 mẫu độc lập

Ho: M1=M2, H1: M1 # M2

ứng dụng PP kđ T test for equality of means

so sánh sig (2 tailed) với anpha = 0.05

lấy gtri dòng 1 hoặc 2 phụ thuộc vào kết quả kđ phg sai

nếu phg sai 2 mẫu bằng nhau thì lấy gtri cột sig (2 tailed) dòng 1, so sánh vs anpha = 0.05 và ngc lại

(Vì kết quả kđ phg sai bằng nhau nên chúng ta so sánh gtri cột sig (2 tailed) dòng 1 với anpha=0.05
Sig(2 tailed) dòng 1= 0.126> anpha=0.05

chấp nhận Ho => mức độ tin cậy 95% cta luôn khẳng định rằng doanh thu tiêu thụ bình quân của 2 cửa hàng có sự khác biệt ko đáng kể
giám đốc DN quan tâm đến 2 cửa hàng như nhau)

Bài 3** so sánh giá trị bình quân của 3 mẫu độc lập trở lên

PP kiểm định Oneway ANOVA => F test

Ho: M1=M2=M3=M4 (muy) (tiêu thụ bình quân của 4 mùa tương ứng X, H, T Đ)
H1: có ít nhất 1 M khác biệt đáng kể vs các M còn lại
Ana/ Compare means/ oneway anova
=> options => Post Hoc=> LSD: least square deviation (độ lệch bình phg nhỏ nhất)

+ Bảng anova (sig) sig=0.001<0.05 => bác bỏ Ho, chấp nhận H1 => vs mức độ tin cậy 95%, cta luôn kđinh rằng có ít nhất 1 mùa có mức độ tiêu độ khác biệt đáng kể vs 3 mùa còn lại

+ Bảng multiple comparisons: so sánh từng cặp
(Chỗ nào có dấu * ở mean differ thì có khác biệt đáng kể)

Vs 95%, cta luôn kđ rằng mùa đông có lượng tiêu thụ bình quân thấp hơn đáng kể so với 3 mùa còn lại
Vs DN đối với mùa đông ko cần dự trữ nhiều, thuê nhiều nhân công

Pitch tương quan: compare means, correlate => bivariate

Xác định mối tg quan giữa TN và TD

Analyze -> correlate=> bivariate

Correlations
		Thu nhập		Tiêu dùng
Thu nhập	Pearson Correlation		1		.967^**
	Sig. (2-tailed)				.000
	N		42		42
Tiêu dùng	Pearson Correlation		.967^**		1
	Sig. (2-tailed)		.000
	N		42		42
**. Correlation is significant at the 0.01 level (2-tailed).

Sd hệ số tương quan bội pearson corre để xác đinhj tương quan

+ Cùng độ 0 =< /r/ <= 1

0.9

+ Chiều tương quan r>0 => thuận chiều

Hồi quy: Regression => hồi quy:
Hồi quy tuyến tính đơn

+ Biến phụ thuộc là biến số liên tục/định lượng
+ Các biến số liên tục trong MH tiệm cận PP chuẩn (nếu ko chuẩn phải chuyển đổi biến) => cả 2 biến GDP và Tel đều tiệm cận PP chuẩn
+ Phần dư tiệm cận phân phối chuẩn
+ ko có ngoại lại => cả 2 đều ko có số ngoại lai
Bước 1: viết ptr mô hình hồi quy mẫu
Bo: constant intercept, B1: slope, Ei: residual

=> ktra PP của phần dư

Hồi quy tuyến tính đa biến

+ Biến phụ thuộc là biến số liên tục
+ Các biến số liên tục tiệm cận PP chuẩn
+ ko có các khuyết tật của MH (đa cộng tuyến (Multicollinearity – Các biến độc lập tg quan chặt vs nhau; hệ số tg quan bội 0.5<= /r/<=0.7, /r/>=0.6), Phương sai thay đổi, …)
+ Dung lượng mẫu: N>50+8m (m là số biến độc lập)
B1: XD MH thuyết về các yếu tố tiềm năng ảnh hưởng đến sản lượng lúa của HGĐ
B2:
Bài 6:
B1: Viết Phương trình của mô hình hồi quy tuyến tính mẫu:
Output= Bo + B1Land + B2Fertilizer + B3Labour + B4Machine + B5Plot + B6Landclass + B7Age + B8HHsize + B9Region + Ei
B2: kiểm tra PP chuẩn cho tất cả các biến định lượng trong mô hình pt (1)
Output ->…….-> HHsize (9 biến)

Explore: Ana/ Des Sta/explore/ dependent list (9 biến)/ plots: histogram, normality plots with tests
Histogram: Graphs/ Legacy Dialogs/ Histogram: kiểm định smirnov (sig)

Transform biến cũ sang biến mới tiệm cận PP chuẩn: Transform/ compute vảriable

Target variable(biến ms): Ln output=ln(output)
Viết lại Phương trình
LnOutput= Bo + B1.LnLand + B2.LnFertilizer + B3.LnLabour + B4.LnMachine + B5.LnPlot + B6Landclass + B7Age + B8HHsize + B9Region + Ei (2)
B3: Kiểm tra số ngoại lại cho các biến định lượng trong ptr 2
B4: Chạy mô hình pt 2 và ktra các khuyết tật của MH
***Ana/ Regression/Linear
Dependent: LnOutput
Independent(s): 9 biến LnLand->……Region

Colli Diano: ktra htg đa cộng tuyến

(VIF- Variance Inflation Factor: nhân tố phg sai phóng đại)

Durbin Watson: ktra hiện tượng tự tg quan phần dư

Nor Proba plot: vẽ đồ thi ktra PP chuẩn của phần dư
*** Ktra các khuyết tật của MH tr 2
Dựa vào bảng Coefficients (cột VIF)
VIF>=10 => có hiện tượng đa cộng tuyến
Khắc phục => Loại dần từng biến có VIF >=10 và Max khỏi mô hình => loại bỏ biến LnLand

Ktra hiện tg tự tg quan của phần dư (bảng Model Summary -> cột durbin Watson)

1 ko có htg tự tg quan
B5: Ktr sự tồn tại và phù hợp của mô hình

Ktr sự tồn tại

Bảng Anova(sig)
Ho: B1=B2=….
H1: có ít nhất Bj #0
Vì sig =>………mô hình tồn tại
(Nếu sig>=0.05 => chấp nhận Ho=> mô hình luôn luôn ko tồn tại => ko xđ đc các yếu tố ảnh hưởng đến biến phụ thuộc (lnOutput))

Kiểm định và ktr sự phù hợp và tin cậy của MH

Bảng Model Summary(cột adjust R square)
R2hc(hệ số tg quan hiệu chỉnh) => trong các yếu tố ảnh hưởng sản lượng lúa HGĐ, các yếu tố trong mô hình ptr 2 đã giải thích…% sự thay đổi sản lượng lúa, còn lại (1-Rhc)%.........yếu tố

Mh tương đối phù hợp và đáng tin cậy

B6: XĐ sự tồn tại của các hệ số hồi quy
8 cặp giả thuyết kiểm định Ho: B1=0, H1: B1#0………Ho:B8…..
Dựa vào bảng coefficients(cột sig)
So sánh anpha=0.05
Sig<0.05 => bác bỏ h0, chấp nhận h1
Biến phụ thuộc => B1 sẽ luôn #0 => biến đó có ảnh hưởng đáng kể đến sản lượng

Trong các biến ArH đáng kể, xếp hạng các biến(biến nào ARH lớn nhất,…..- tầm qtrong của các yếu tố AH

Viết ptr MH hồi quy
Ptich tác động biên (hệ số co giãn)
Đề xuất giải pháp

tải về 3.19 Mb.

Chia sẻ với bạn bè của bạn: