Geographic information quality evaluation procedures

Figure G.5 — Graphical representation of dataset error locations

tải về 5.76 Mb.

trang	14/16
Chuyển đổi dữ liệu	08.06.2018
Kích	5.76 Mb.
	#39732

1 ... 8 9 10 11 12 13 14 15 16

Figure G.5 — Graphical representation of dataset error locations

G.3 Đánh giá chất lượng

G.3.1 Nhận dạng lỗi

Bằng cách so sánh tập dữ liệu, trình bày trên hình G.4 với thế giới thục mô phỏng đặc trưng ở hình G.3, danh sách lỗi có thể lập được trong tập dữ liệu ví dụ. Tiếp theo là ví dụ danh mục lỗi phát hiện với số lỗi cho theo qui chiếu:

a) Các không đầy đủ (omision) và lấy nhầm (commission) trong lưu trữ cây. Ba cây (No. 6, No. 8, No. 27 ) thừa và hai cây thiếu (No. 9, No. 25).

b) Các lỗi thiếu và thừa ghi nhận trong đường mòn lưu trữ. Một đường thiếu (No.18) và một đường thừa (No.19).

c) Một ngôi nhà thay thế một tòa nhà công nghiệp (số 23).

d) Hai đường dẫn bị mã hóa nhầm như đường giao thông (số 17, số 26).

e) Một ngôi nhà bị mất (số 21).

f) lỗi thuộc tính trên đường. Hai con đường có sai "điều kiện" (số 29, số 28).

g) Một bệnh viện được biểu diễn trong các tập dữ liệu (số 3).

h) Hai cây có chiều cao dưới 1 mét được biểu diễn trong các tập dữ liệu (số 6, số 8)

i) Cây mã lớp độ cao cây bị thiếu. Một cây thiếu một mã lớp trong khi nó là B trong vũ trụ luận (số 22).

j) thuộc tính chiều cao cây phân loại sai. Sáu cây bị sai chiều cao (số 2, số 11, số 13, số 16, số 20, số 24).

k) thuộc tính tên nhà 'tên gia đình' lỗi. Những ngôi nhà có tên là "van Hamme" (số 7) và "Herge" (số 1) trong thế giới thực mô phỏng không có tên trong các tập dữ liệu. Ngôi nhà có tên là "Goscinny" trong các tập dữ liệu (số 12) không có tên trong thế giới thực mô phỏng.

l) lỗi tên thuộc tính là 'tên gia đình'. Những ngôi nhà có tên là "Franquin" (số 5) và "Pratt" (số 15) trong thực địa được đặt tên là "Franklin" và "Prat" tương ứng trong các tập dữ liệu.

m) Lỗi đếm số người cư trú trong nhà bị sai: Thuộc tính số người cư trú trong nhà bị thiếu trong một ngôi nhà (số 31) và sai cho ba nhà (số 4, số 14, số 30).

n) lỗi không đầy đủ nhà trong các tòa nhà công nghiệp. Một tòa nhà công nghiệp bị thiếu (số 10).

CHÚ THÍCH Việc phân loại các lỗi như không đầy đủ / lấy thừa, đầy đủ hoặc độ chính xác chuyên đề là lỗi kép. Ví dụ, việc phân loại sai của một ngôi nhà là một tòa nhà công nghiệp có thểo coi là lỗi không đầy đủ cho lớp nhà khu dân cư/ nhưng cũng là lỗi lấy thừa cho lớp nhà công nghiệp

G.3 Evaluation of data quality

G.3.1 Identification of errors

By comparing the dataset, represented by Figure G.3, with the universe of discourse, represented by Figure G.2, a list of errors in the example dataset can be produced. The following is a list of detected errors with error numbers given for reference.

a) Errors of omission and commission in recording of trees. Three trees No. 6, No. 8, No. 27) are in excess and two trees are missing No. 9, No. 25).

b) Errors of omission and commission in recording paths. One path is missing (No.18) and one is in excess (No.19).

c) A house replaces an industrial building (No.23).

d) Two paths are miscoded as roads (No.17, No.26).

e) A house is missing (No.21).

f) Attribute error on roads. Two roads have the wrong “condition” (No.29, No.28).

A hospital is represented in the dataset (No.3).
Two trees with a height less than 1 metre are represented in the dataset (No.6, No.8)
Tree height attribute class code missing. A tree is missing a class code while it is B in the universe of discourse (No.22).
Tree height attribute misclassified. Six trees have the wrong height class assigned (No.2, No.11, No.13, No.16, No.20, No.24).
House name attribute ‘family name’ errors. The houses named “van Hamme” (No.7) and “Herge” (No.1) in the universe of discourse have no name in the dataset. The house named “Goscinny” in the dataset (No.12) has no name in the universe of discourse.
House name attribute ‘family name’ errors. The houses named “Franquin” (No.5) and “Pratt” (No.15) in the universe of discourse are named “Franklin” and “Prat” respectively in the dataset.
House occupant count attribute errors. The occupant count attribute is missing for one house (No.31) and wrong for three houses (No.4, No.14, No.30).
Omission error in industrial buildings. One industrial building is missing (No.10).

NOTE The classification of errors as omission/commission, completeness or thematic accuracy is subjective. For example, the misclassification of a house as an industrial building could alternately be considered as an error of omission of the one and commission of the other.

G.3.2. Tính đầy đủ

ISO 19113 xác định tính đầy đủ là sự hiện diện và vắng của đối tượng, các thuộc tính của chúng và các quan hệ của chúng. Tính đầy đủ trong ví dụ được phân loại bằng lớp đối tượng. Kiểu các phép đo lường được kiểm tra các lỗi đầy đủ hoặc không đầy đủ. Bảng G.1 giới thiệu phương pháp phân loại tính đầy đủ.

G.3.2 Completeness

ISO 19113 defines completeness as the presence and absence of features, their attributes and their relationships. Completeness in this example is classified by feature class. The types of measures tested for are commission and omission. Table G.1 depicts a way to classify completeness.

Bảng G.1— Tính đầy đủ theo lớp đối tượng

Lớp đối tượng	Số trường hợp trong thế giới thực	Đếm đầy đủ	Phần trăm đầy đủ^a	Đếm đầy đủ	Phần trăm không đầy đủ^b
Đường mòn	7	0	0	2	29
Đường	5	2	40	0	0
Cây	25	3	12	2	7
Tòa nhà công nghiệp	4	0	0	2	50
Nhà ở	10	1	10	1	10
Bệnh viện	0	1	100	0	0
^a Tỷ lệ đầy đủ = số các mục tính đến/số các mục trong mô hình thế giới thực x 100 ^b Tỷ lệ không đầy đủ = số các mục không đầy đủ/ số các mục trong mô hình thế giới thực x 100

Table G.1— Completeness by feature class

Feature class	Number of instances in the universe of discourse	Commission count	Commission percentage^a	Omission count	Omission percentage^b
Path	7	0	0	2	29
Road	5	2	40	0	0
Tree	25	3	12	2	7
Industrial Building	4	0	0	2	50
House	10	1	10	1	10
Hospital	0	1	100	0	0
^a Commission percentage = number of included items/number of items in the universe of discourse x 100 ^b Omission percentage = number of omitted items/number of items in the universe of discourse x 100

G.3.3 Độ chính xác chuyên đề

G.3.3.1 ISO 19113 định nghĩa độ chính xác chuyên đề là chính xác về thuộc tính định lượng và chính xác về các thuộc tính không định lượng và phân loại đối tượng cùng các quan hệ của chúng. Một giải pháp trình bày các lỗi về chính xác chuyên đề là sử dụng “ma trận sai số phân lớp”

CHÚ THÍCH 1: Ma trận sai số phân lớp là ma trận vuông trong đó thành phần i, j liên quan đến số lượng được phân lớp như là thuộc lớp j khi lớp thực tế thuộc lớp i.

Bảng G.2 là ma trận sai số phân lớp cho biết lỗi lớp đối tượng. Ma trận giải thích các trường hợp trong bộ dữ liệu được phân lớp như thế nào. Các tỷ lệ phần trăm khác nhau có thể thường chỉ dẫn đến thế giới thực trong bộ dữ liệu.

CHÚ THÍCH 2. Trong các ma trận, số tiếp theo tên của kiểu đối tượng chỉ số xuất hiện và giá trị trong ô là phần trăm của lỗi phân loại đối tượng.

G.3.3 Thematic accuracy

G.3.3.1 ISO 19113 defines thematic accuracy as the accuracy of quantitative attributes and the correctness of the nonquantitative attributes and of the classifications of features and their relationships. One way of depicting errors associated with thematic accuracy is by using a “misclassification matrix".

NOTE 1 A misclassification matrix is a square matrix where the i,j element corresponds to the quantity classified as belonging to class j when it actually belong to class i.

Table G.2 is a misclassification matrix that shows errors by feature class. It explains how well the instances in the dataset are classified. The different percentages should always refer to the population in the dataset.

NOTE 2 In the matrices, the number after the name of the feature type denotes the number of occurrences and the value in the cell is the percent of misclassification.

Bảng G.2 — Ma trận lỗi phân loại đối tượng

Mô hình thế giới thực	Tập dữ liệu
Mô hình thế giới thực	Path 5	Road 7	Tree 26	Xây dựng công nghiệp 2	House 10	không (các đối tượng không đầy đủ)
Path 7	4 / 5 = 80%	2 / 7 = 29%	0%	0%	0%	1 / 5 = 20%
Road 5	0%	5 / 7 = 71%	0%	0%	0%	0%
Tree 25	0%	0%	23 / 26 = 88%	0%	0%	2 / 5 = 40%
Xây dựng công nghiệp 4	0%	0%	0%	2 / 2 = 100%	1 / 10 = 10%	1 / 5 = 20%
House 10	0%	0%	0%	0%	9 / 10 = 90%	1 / 5 = 20%
None 3 Cam kết các đối tượng	0%	0%	3 / 26 = 11%	0%	0%
Tổng tập dữ liệu dân cư	5 / 5 = 100%	7 / 7 = 100%	26 / 26 = 100%	2 / 2 = 100%	10 / 10 = 100%

Table G.2 — Feature misclassification matrix

universe of discourse	dataset
universe of discourse	Path 5	Road 7	Tree 26	Industrial building 2	House 10	None (omitted features)
Path 7	4 / 5 = 80%	2 / 7 = 29%	0%	0%	0%	1 / 5 = 20%
Road 5	0%	5 / 7 = 71%	0%	0%	0%	0%
Tree 25	0%	0%	23 / 26 = 88%	0%	0%	2 / 5 = 40%
Industrial building 4	0%	0%	0%	2 / 2 = 100%	1 / 10 = 10%	1 / 5 = 20%
House 10	0%	0%	0%	0%	9 / 10 = 90%	1 / 5 = 20%
None 3 (committed features)	0%	0%	3 / 26 = 11%	0%	0%
Sum dataset population	5 / 5 = 100%	7 / 7 = 100%	26 / 26 = 100%	2 / 2 = 100%	10 / 10 = 100%

Trong bảng G.3 và G.4 chỉ các đôi tượng có tính đồng nhất trong kiểu đối tượng như nhau mới được tính đến

G.3.3.2 Thuộc tính độ cao của các cây được trình bày trong bảng G.3.

In tables G.3 and G.4, only features that have homologue in the same feature type ("class") are taken into account.
G.3.3.2 Attribute height of trees is shown in Table G.3

Bảng G.3 - Ma trận lỗi phân lớp độ cao thuộc tính đối tượng – Độ cao cây

Mô hình thế giới thực	Tập dữ liệu
Mô hình thế giới thực	Lớp A 1 đến 3m 5	Lớp B 3 đến 5m 10	Lớp C 5 đến 10m 5	Lớp D lớn hơn 10m 4	Không xác định (missing values) 4
Lớp A 5	3 / 5 = 60%	1 / 10 = 10%	0%	0%	1 / 4 = 25%
Lớp B 8	1 / 5 = 20%	5 / 10 = 50%	0%	0%	2 / 4 = 50%%
Lớp C 10	0%	2 / 10 = 20%	5 / 5 = 100%	2 / 4 = 50%	1 / 4 = 25%
Lớp D 2	0%	0%	0%	2 / 4 = 50%	0%
Không xác định 3 (commission)	1 / 5 = 20%	2 / 10 = 20%	0%	0%	0%
Sum dataset population	5 / 5 = 100%	10/10 = 100%	5 /5 = 100%	4 / 4 = 100%	4 / 4 = 100%

Table G.3 — Feature attribute height misclassification matrix - tree height

universe of discourse	dataset
universe of discourse	class A 1 to 3m 5	class B 3 to 5m 10	class C 5 to 10m 5	class D > 10m 4	Not determined (missing values) 4
Class A 5	3 / 5 = 60%	1 / 10 = 10%	0%	0%	1 / 4 = 25%
Class B 8	1 / 5 = 20%	5 / 10 = 50%	0%	0%	2 / 4 = 50%%
Class C 10	0%	2 / 10 = 20%	5 / 5 = 100%	2 / 4 = 50%	1 / 4 = 25%
Class D 2	0%	0%	0%	2 / 4 = 50%	0%
Not determined 3 (commission)	1 / 5 = 20%	2 / 10 = 20%	0%	0%	0%
Sum dataset population	5 / 5 = 100%	10/10 = 100%	5 /5 = 100%	4 / 4 = 100%	4 / 4 = 100%

G.3.3.3 Điều kiện thuộc tính đường được giới thiệu trong bảng G.4

G.3.3.3 Attribute condition of roads is shown in Table G.4

Bảng G.4 Ma trận lỗi phân lớp thuộc tính đối tượng – Điều kiện đường

Mô hình thế giới thực	Bộ dữ liệu
Mô hình thế giới thực	bề mặt 2	Không bề mặt 3
bề mặt 2	1 / 2 = 50%	1 / 3 = 33%
Không bề mặt 3	1 / 2 = 50%	2 / 3 = 67%

Table G.4 — Feature attribute misclassification matrix - road condition

universe of discourse	dataset
universe of discourse	surfaced 2	unsurfaced 3
surfaced 2	1 / 2 = 50%	1 / 3 = 33%
unsurfaced 3	1 / 2 = 50%	2 / 3 = 67%

G.3.3.4 Thuộc tính “số người ở” của nhà là ví dụ về độ chính xác của thuộc tính đối tượng định lượng được định nghĩa bằng một giá trị. Ví dụ tiếp theo minh họa cách đo độ chính xác và tính đầy đủ chuyên đề các đối tượng chất lượng dữ liệu và tính đầy đủ và cách thể hiện các kết quả các trị đo trong các khoản text, các sai lấy nhầm vào không đầy đủ và thống kê sai số;

1/9 nhà không có số liệu về số người sở hữu;
Bias: 2/8 = - 0,25 người sở hữu;
RMSE: 0,87 người sở hữu;
Kích thước mẫu: 8.

G.3.3.4 Attribute "number of occupants" of houses as an example of accuracy of a quantitative feature attribute defined by a value. The following demonstrates a way to measure the data quality elements thematic accuracy and completeness, and how to express the results of the measurements in terms of text, commission/omission ratios and error statistics.

1/9 houses has no value for the number of occupants;
bias : -2/8=-0,25 occupants;
RMSE : 0,87 occupant;
sample size : 8.

G.4 Báo cáo các kết quả chất lượng

G.4.1 Ví dụ về lỗi đầy đủ

Ví dụ minh họa ở G.4.2 và G.4.3 trình bày cách báo cáo các kết quả chất lượng cho một kiểu lỗi, các lỗi thừa kiểu đối tượng đường mòn. Đầu tiên các kết quả chất lượng được thông báo như là dữ liệu metadata. Một bản báo cáo đánh giá chất lượng dữ liệu khi đố được sử dụng để báo thông tin chi tiết về chất lượng.dữ liệu

G.4 Reporting quality results

G.4.1 Example of error of commission

The following gives an example how to report the quality results for one type of error, commission errors for feature type “path”. First the quality results have been reported as metadata. A data quality evaluation report is then used to report detailed quality information.

G.4.2 Báo cáo trong siêu dữ liệu

Hình G.6 là ví dụ về cách lập báo cáo chất lượng như là một bản metadata được mô tả trong ISO 19115. Giải thích các mã sử dụng từ ISO 19115 được cho trong dấu ngoặc đơn, nhưng không phải thành phần của thông báo.

G.4.2 Reporting in metadata

The following is an example of how to report the quality results as metadata as described in ISO 19115. The explanation of the codes used from ISO 19115 are given in parenthesis, but are not part of the report.

Chất lượng dữ liệu
	DQ_Phạm vi
		scpLvl				012 (kiểu đối tượng)
			Extent
			exDesc			Phạm vi tập dữ liệu
			geoEle
				exTypeCode		1 (inclusion)
			GeoBndBox
				westBL		+005.0134
				eastBL		+005.0228
				southBL		+22.956
				northBL		+23.003
	DQ_Completeness
		DQ Omission
			DQ Measure
				nameOfMeasure		Đếm
				domainOfMeasure		Số lượng
				Miêu tả		Số cây thiếu
				Thủ tục đánh giá		So sánh số cây trong nguồn và tập dữ liệu
				Ngày giờ		2000-09-14
				DQ Result
DQ QuantitativeResult
					Miền giá trị	{0 ... n }
					Kết quả	2

Hình G.6 Báo cáo bằng siêu dữ liệu theo ISO 19115

Data Quality
	DQ_Scope
		scpLvl				012 (feature type)
			Extent
			exDesc			Extent of dataset
			geoEle
				exTypeCode		1 (inclusion)
			GeoBndBox
				westBL		+005.0134
				eastBL		+005.0228
				southBL		+22.956
				northBL		+23.003
	DQ_Completeness
		DQ Omission
			DQ Measure
				nameOfMeasure		count
				domainOfMeasure		number
				description		number of trees missing
				evaluationProcedure		compare count of trees in source and dataset
				dateTime		2000-09-14
				DQ Result
DQ QuantitativeResult
					valueDomain	{0 ... n }
					result	2

Figure G.6 - Reporting as metadata accordina to ISO 19115

G.4.3 Báo cáo đánh giá chất lượng dữ liệu

Hình G.7 là một ví dụ về cách lập báo cáo kết quả chất lượng dữ liệu theo kiểu báo cáo riêng về chất lượng dữ liệu

G.4.3 Reporting as quality evaluation report

Figure G.7 is an example of how to report the quality results as a data quality report.

addQualityReport
	reportldentification			Báo cáo chất lượng về ví dụ trong phụ lục này
	reportScope			Tập dữ liệu
	compQuantDesc
		dataQualMeasure
			mathDesc	Số các đối tượng trong tập dữ liệu chia cho số các đối tượng trong thực tế rồi nhân với 100
			compMeasValue	Tỷ lệ
			valType	Số thực
			realibilityValue	100
			realibilityValueUnits
		conformConfidence
			conformConfValue
			conformConfValDesc
			referenceDoc
	dqeMethodTypelnfo
		dqeMethodType		2 (nội bộ trực tiếp)
		dqeSamplingApplies		3 (không áp dụng)
		dqeMethodlnfo
		dqeAssumptions
		dqeProcAlgorithm		So sánh hình ảnh sốcây trong nguồn với tập dữ liệu
		dqeParamlnfo
		dqeParamDefinition
		dqeParamValues
		dqeParamDomain
		dqeFulllnspectMetho
		dqeFulllnspecType		Đếm số cây
		dqeltemDesc		Số cây trong mỗi thông số kỹ thuật sản phẩm
		referenceDoc
		dqeSampleMethod
		dqeSamplingSchem
		dqeltemDescription
		dqeLotDescription
		dqeSamplingRation
		dqeDeductiveSourc
		dqeDeductRefDocs
		referenceDoc
		aggSourceValues
aggResult
			aggValueDomain
			aggMeasureValue
			aggErrorStat
			aggQEPreport
	qepOtherDesc

Hình G.7 – Báo cáo đánh giá chất lượng theo ISO 19114:2003, Phụ lục I

addQualityReport
	reportldentification			Quality Report of Example in this annex
	reportScope			Dataset
	compQuantDesc
		dataQualMeasure
			mathDesc	Number of items in dataset divided by number of items in universe of discourse multiplied by 100
			compMeasValue	ratio
			valType	real
			realibilityValue	100
			realibilityValueUnits
		conformConfidence
			conformConfValue
			conformConfValDesc
			referenceDoc
	dqeMethodTypelnfo
		dqeMethodType		2 (direct internal)
		dqeSamplingApplies		3 (not applicable)
		dqeMethodlnfo
		dqeAssumptions
		dqeProcAlgorithm		Compare visual count of trees in source with dataset
		dqeParamlnfo
		dqeParamDefinition
		dqeParamValues
		dqeParamDomain
		dqeFulllnspectMetho
		dqeFulllnspecType		Count of trees
		dqeltemDesc		Trees per product specification
		referenceDoc
		dqeSampleMethod
		dqeSamplingSchem
		dqeltemDescription
		dqeLotDescription
		dqeSamplingRation
		dqeDeductiveSourc
		dqeDeductRefDocs
		referenceDoc
		aggSourceValues
aggResult
			aggValueDomain
			aggMeasureValue
			aggErrorStat
			aggQEPreport
	qepOtherDesc

Figure G.7 – Quality Evaluation Report according to ISO 19114:2003, Annex I

Phụ lục H

(tham khảo)

Ví dụ về kết quả chất lượng dữ liệu tổng hợp

Annex H

(informative)

Example of an aggregated data quality result

H.1 Giới thiệu

Các thông tin trong ví dụ này dựa trên các kỹ thuật sử dụng trong công nghiệp tư nhân ở châu Âu, Bắc Mỹ và Châu Á. Mục tiêu của các ví dụ được mô tả là để minh họa các kỹ thuật về đo lường và kết hợp chính xác theo chủ đề, sự đầy đủ và chính xác vị trí trong một tập dữ liệu đường.

Ví dụ này là chỉ quan tâm đến lập báo kết quả chất lượng dữ liệu tổng hợp. Không có so sánh với một mức độ chất lượng phù hợp khác

H.1 Introduction

The information in this example is based on techniques in use in private industry in Europe, North America and Asia. The objective of the example described is to illustrate the techniques of the measurement and aggregation of thematic accuracy, completeness and positional accuracy in a road-based dataset.

This example is concerned only with reporting an aggregated data quality result. No comparison with a conformance quality level is made.

H.2 Mô tả tập dữ liệu

H.2.1 Trình bày thế giới thực

Thế giới thực được trình bày trong hình H.1. mà cũng mô tả một mảnh được vẽ từ dữ liệu đầy đủ của dữ liệu đường bộ. Khu vực hình chữ nhật được tô bóng ở lưới vuông B-2 đại diện cho các đơn vị lấy mẫu được lựa chọn ngẫu nhiên để được kiểm tra.

H.2 Dataset description

H.2.1 Real world representation

The real world is represented by Figure H.1. which also depicts a lot drawn from the full dataset of road-based data. The shaded rectangular area at grid square B-2 represents the randomly selected sampling unit to be tested.

Hình H.1 — Mảnh được lựa chọn ngẫu nhiên từ cơ sở dữ liệu đầy đủ và đơn vị lấy mẫu được lựa chọn ngẫu nhiên (hình chữ nhật bóng mờ tối hơn)

Каталог: media -> document
document -> TIÊu chuẩn việt nam tcvn 8860-1: 2011
document -> HỘI ĐỒng nhân dân tỉnh sơn la số: 77/nq-hđnd cộng hoà XÃ HỘi chủ nghĩa việt nam
document -> ĐỊnh hưỚng nghiên cứu khoa học cho chưƠng trình phòNG, chống hiv/aids giai đOẠN 2016 -2020
document -> Ban hành kèm theo Quyết định số 608/QĐ-ttg ngày 25/5/2012 của Thủ tướng Chính phủ
document -> II. chủ ĐỀ VÀ khẩu hiệU
document -> BỘ y tế HƯỚng dẫn quản lý ĐIỀu trị VÀ chăm sóc hiv/aids
document -> Geographic information reference model
document -> Tcvn iso/ts 19104: 2012
document -> Geographic information

tải về 5.76 Mb.

Chia sẻ với bạn bè của bạn:

1 ... 8 9 10 11 12 13 14 15 16