Geographic information quality evaluation procedures


Figure G.5 — Graphical representation of dataset error locations



tải về 5.76 Mb.
trang14/16
Chuyển đổi dữ liệu08.06.2018
Kích5.76 Mb.
1   ...   8   9   10   11   12   13   14   15   16

Figure G.5 — Graphical representation of dataset error locations

G.3 Đánh giá chất lượng

G.3.1 Nhận dạng lỗi

  • Bằng cách so sánh tập dữ liệu, trình bày trên hình G.4 với thế giới thục mô phỏng đặc trưng ở hình G.3, danh sách lỗi có thể lập được trong tập dữ liệu ví dụ. Tiếp theo là ví dụ danh mục lỗi phát hiện với số lỗi cho theo qui chiếu:

a) Các không đầy đủ (omision) và lấy nhầm (commission) trong lưu trữ cây. Ba cây (No. 6, No. 8, No. 27 ) thừa và hai cây thiếu (No. 9, No. 25).

b) Các lỗi thiếu và thừa ghi nhận trong đường mòn lưu trữ. Một đường thiếu (No.18) và một đường thừa (No.19).

c) Một ngôi nhà thay thế một tòa nhà công nghiệp (số 23).

d) Hai đường dẫn bị mã hóa nhầm như đường giao thông (số 17, số 26).

e) Một ngôi nhà bị mất (số 21).

f) lỗi thuộc tính trên đường. Hai con đường có sai "điều kiện" (số 29, số 28).

g) Một bệnh viện được biểu diễn trong các tập dữ liệu (số 3).

h) Hai cây có chiều cao dưới 1 mét được biểu diễn trong các tập dữ liệu (số 6, số 8)

i) Cây mã lớp độ cao cây bị thiếu. Một cây thiếu một mã lớp trong khi nó là B trong vũ trụ luận (số 22).

j) thuộc tính chiều cao cây phân loại sai. Sáu cây bị sai chiều cao (số 2, số 11, số 13, số 16, số 20, số 24).

k) thuộc tính tên nhà 'tên gia đình' lỗi. Những ngôi nhà có tên là "van Hamme" (số 7) và "Herge" (số 1) trong thế giới thực mô phỏng không có tên trong các tập dữ liệu. Ngôi nhà có tên là "Goscinny" trong các tập dữ liệu (số 12) không có tên trong thế giới thực mô phỏng.

l) lỗi tên thuộc tính là 'tên gia đình'. Những ngôi nhà có tên là "Franquin" (số 5) và "Pratt" (số 15) trong thực địa được đặt tên là "Franklin" và "Prat" tương ứng trong các tập dữ liệu.

m) Lỗi đếm số người cư trú trong nhà bị sai: Thuộc tính số người cư trú trong nhà bị thiếu trong một ngôi nhà (số 31) và sai cho ba nhà (số 4, số 14, số 30).

n) lỗi không đầy đủ nhà trong các tòa nhà công nghiệp. Một tòa nhà công nghiệp bị thiếu (số 10).

CHÚ THÍCH Việc phân loại các lỗi như không đầy đủ / lấy thừa, đầy đủ hoặc độ chính xác chuyên đề là lỗi kép. Ví dụ, việc phân loại sai của một ngôi nhà là một tòa nhà công nghiệp có thểo coi là lỗi không đầy đủ cho lớp nhà khu dân cư/ nhưng cũng là lỗi lấy thừa cho lớp nhà công nghiệp


G.3 Evaluation of data quality

G.3.1 Identification of errors

By comparing the dataset, represented by Figure G.3, with the universe of discourse, represented by Figure G.2, a list of errors in the example dataset can be produced. The following is a list of detected errors with error numbers given for reference.

a) Errors of omission and commission in recording of trees. Three trees No. 6, No. 8, No. 27) are in excess and two trees are missing No. 9, No. 25).

b) Errors of omission and commission in recording paths. One path is missing (No.18) and one is in excess (No.19).

c) A house replaces an industrial building (No.23).

d) Two paths are miscoded as roads (No.17, No.26).

e) A house is missing (No.21).

f) Attribute error on roads. Two roads have the wrong “condition” (No.29, No.28).


  1. A hospital is represented in the dataset (No.3).

  2. Two trees with a height less than 1 metre are represented in the dataset (No.6, No.8)

  3. Tree height attribute class code missing. A tree is missing a class code while it is B in the universe of discourse (No.22).

  4. Tree height attribute misclassified. Six trees have the wrong height class assigned (No.2, No.11, No.13, No.16, No.20, No.24).

  5. House name attribute ‘family name’ errors. The houses named “van Hamme” (No.7) and “Herge” (No.1) in the universe of discourse have no name in the dataset. The house named “Goscinny” in the dataset (No.12) has no name in the universe of discourse.

  6. House name attribute ‘family name’ errors. The houses named “Franquin” (No.5) and “Pratt” (No.15) in the universe of discourse are named “Franklin” and “Prat” respectively in the dataset.

  7. House occupant count attribute errors. The occupant count attribute is missing for one house (No.31) and wrong for three houses (No.4, No.14, No.30).

  8. Omission error in industrial buildings. One industrial building is missing (No.10).

NOTE The classification of errors as omission/commission, completeness or thematic accuracy is subjective. For example, the misclassification of a house as an industrial building could alternately be considered as an error of omission of the one and commission of the other.

G.3.2. Tính đầy đủ

ISO 19113 xác định tính đầy đủ là sự hiện diện và vắng của đối tượng, các thuộc tính của chúng và các quan hệ của chúng. Tính đầy đủ trong ví dụ được phân loại bằng lớp đối tượng. Kiểu các phép đo lường được kiểm tra các lỗi đầy đủ hoặc không đầy đủ. Bảng G.1 giới thiệu phương pháp phân loại tính đầy đủ.




G.3.2 Completeness

ISO 19113 defines completeness as the presence and absence of features, their attributes and their relationships. Completeness in this example is classified by feature class. The types of measures tested for are commission and omission. Table G.1 depicts a way to classify completeness.





Bảng G.1— Tính đầy đủ theo lớp đối tượng

Lớp đối tượng

Số trường hợp trong thế giới thực

Đếm đầy đủ

Phần trăm đầy đủa

Đếm đầy đủ

Phần trăm không đầy đủb

Đường mòn

7

0

0

2

29

Đường

5

2

40

0

0

Cây

25

3

12

2

7

Tòa nhà công nghiệp

4

0

0

2

50

Nhà ở

10

1

10

1

10

Bệnh viện

0

1

100

0

0

a Tỷ lệ đầy đủ = số các mục tính đến/số các mục trong mô hình thế giới thực x 100

b Tỷ lệ không đầy đủ = số các mục không đầy đủ/ số các mục trong mô hình thế giới thực x 100

Table G.1— Completeness by feature class

Feature class

Number of instances in the universe of discourse

Commission count

Commission percentagea

Omission count

Omission percentageb

Path

7

0

0

2

29

Road

5

2

40

0

0

Tree

25

3

12

2

7

Industrial Building

4

0

0

2

50

House

10

1

10

1

10

Hospital

0

1

100

0

0

a Commission percentage = number of included items/number of items in the universe of discourse x 100

b Omission percentage = number of omitted items/number of items in the universe of discourse x 100



G.3.3 Độ chính xác chuyên đề

G.3.3.1 ISO 19113 định nghĩa độ chính xác chuyên đề là chính xác về thuộc tính định lượng và chính xác về các thuộc tính không định lượng và phân loại đối tượng cùng các quan hệ của chúng. Một giải pháp trình bày các lỗi về chính xác chuyên đề là sử dụng “ma trận sai số phân lớp”

CHÚ THÍCH 1: Ma trận sai số phân lớp là ma trận vuông trong đó thành phần i, j liên quan đến số lượng được phân lớp như là thuộc lớp j khi lớp thực tế thuộc lớp i.

Bảng G.2 là ma trận sai số phân lớp cho biết lỗi lớp đối tượng. Ma trận giải thích các trường hợp trong bộ dữ liệu được phân lớp như thế nào. Các tỷ lệ phần trăm khác nhau có thể thường chỉ dẫn đến thế giới thực trong bộ dữ liệu.

CHÚ THÍCH 2. Trong các ma trận, số tiếp theo tên của kiểu đối tượng chỉ số xuất hiện và giá trị trong ô là phần trăm của lỗi phân loại đối tượng.




G.3.3 Thematic accuracy

G.3.3.1 ISO 19113 defines thematic accuracy as the accuracy of quantitative attributes and the correctness of the non­quantitative attributes and of the classifications of features and their relationships. One way of depicting errors associated with thematic accuracy is by using a “misclassification matrix".

NOTE 1 A misclassification matrix is a square matrix where the i,j element corresponds to the quantity classified as belonging to class j when it actually belong to class i.



Table G.2 is a misclassification matrix that shows errors by feature class. It explains how well the instances in the dataset are classified. The different percentages should always refer to the population in the dataset.

NOTE 2 In the matrices, the number after the name of the feature type denotes the number of occurrences and the value in the cell is the percent of misclassification.


Bảng G.2 — Ma trận lỗi phân loại đối tượng

Mô hình thế giới thực

Tập dữ liệu

Path 5

Road 7

Tree 26

Xây dựng công nghiệp 2

House 10

không (các đối tượng không đầy đủ)

Path 7

4 / 5 = 80%

2 / 7 = 29%

0%

0%

0%

1 / 5 = 20%

Road 5

0%

5 / 7 = 71%

0%

0%

0%

0%

Tree 25

0%

0%

23 / 26 = 88%

0%

0%

2 / 5 = 40%

Xây dựng công nghiệp 4

0%

0%

0%

2 / 2 = 100%

1 / 10 = 10%

1 / 5 = 20%

House 10

0%

0%

0%

0%

9 / 10 = 90%

1 / 5 = 20%

None 3

Cam kết các đối tượng

0%

0%

3 / 26 = 11%

0%

0%




Tổng tập dữ liệu dân cư

5 / 5 = 100%

7 / 7 = 100%

26 / 26 = 100%

2 / 2 = 100%

10 / 10 = 100%





Table G.2 — Feature misclassification matrix

universe of discourse

dataset

Path 5

Road 7

Tree 26

Industrial building 2

House 10

None

(omitted

features)

Path 7

4 / 5 = 80%

2 / 7 = 29%

0%

0%

0%

1 / 5 = 20%

Road 5

0%

5 / 7 = 71%

0%

0%

0%

0%

Tree 25

0%

0%

23 / 26 = 88%

0%

0%

2 / 5 = 40%

Industrial building 4

0%

0%

0%

2 / 2 = 100%

1 / 10 = 10%

1 / 5 = 20%

House 10

0%

0%

0%

0%

9 / 10 = 90%

1 / 5 = 20%

None 3

(committed features)

0%

0%

3 / 26 = 11%

0%

0%




Sum dataset population

5 / 5 = 100%

7 / 7 = 100%

26 / 26 = 100%

2 / 2 = 100%

10 / 10 = 100%






Trong bảng G.3 và G.4 chỉ các đôi tượng có tính đồng nhất trong kiểu đối tượng như nhau mới được tính đến

G.3.3.2 Thuộc tính độ cao của các cây được trình bày trong bảng G.3.

In tables G.3 and G.4, only features that have homologue in the same feature type ("class") are taken into account.
G.3.3.2 Attribute height of trees is shown in Table G.3

Bảng G.3 - Ma trận li phân lớp độ cao thuộc tính đối tượng – Độ cao cây


Mô hình thế giới thực

Tập dữ liệu

Lớp A

1 đến 3m

5

Lớp B

3 đến 5m

10

Lớp C

5 đến 10m

5

Lớp D

lớn hơn 10m

4

Không xác định

(missing values)

4

Lớp A 5

3 / 5 = 60%

1 / 10 = 10%

0%

0%

1 / 4 = 25%

Lớp B 8

1 / 5 = 20%

5 / 10 = 50%

0%

0%

2 / 4 = 50%%

Lớp C 10

0%

2 / 10 = 20%

5 / 5 = 100%

2 / 4 = 50%

1 / 4 = 25%

Lớp D 2

0%

0%

0%

2 / 4 = 50%

0%

Không xác định 3 (commission)

1 / 5 = 20%

2 / 10 = 20%

0%

0%

0%

Sum dataset population

5 / 5 = 100%

10/10 = 100%

5 /5 = 100%

4 / 4 = 100%

4 / 4 = 100%



Table G.3 — Feature attribute height misclassification matrix - tree height


universe of discourse

dataset

class A

1 to 3m

5

class B

3 to 5m

10

class C

5 to 10m

5

class D

> 10m

4

Not determined

(missing values)

4

Class A 5

3 / 5 = 60%

1 / 10 = 10%

0%

0%

1 / 4 = 25%

Class B 8

1 / 5 = 20%

5 / 10 = 50%

0%

0%

2 / 4 = 50%%

Class C 10

0%

2 / 10 = 20%

5 / 5 = 100%

2 / 4 = 50%

1 / 4 = 25%

Class D 2

0%

0%

0%

2 / 4 = 50%

0%

Not determined 3 (commission)

1 / 5 = 20%

2 / 10 = 20%

0%

0%

0%

Sum dataset population

5 / 5 = 100%

10/10 = 100%

5 /5 = 100%

4 / 4 = 100%

4 / 4 = 100%



G.3.3.3 Điều kiện thuộc tính đường được giới thiệu trong bảng G.4


G.3.3.3 Attribute condition of roads is shown in Table G.4


Bảng G.4 Ma trận lỗi phân lớp thuộc tính đối tượng – Điều kiện đường


Mô hình thế giới thực

Bộ dữ liệu

bề mặt 2

Không bề mặt 3

bề mặt 2

1 / 2 = 50%

1 / 3 = 33%

Không bề mặt 3

1 / 2 = 50%

2 / 3 = 67%


Table G.4 — Feature attribute misclassification matrix - road condition


universe of discourse

dataset

surfaced 2

unsurfaced 3

surfaced 2

1 / 2 = 50%

1 / 3 = 33%

unsurfaced 3

1 / 2 = 50%

2 / 3 = 67%



G.3.3.4 Thuộc tính “số người ở” của nhà là ví dụ về độ chính xác của thuộc tính đối tượng định lượng được định nghĩa bằng một giá trị. Ví dụ tiếp theo minh họa cách đo độ chính xác và tính đầy đủ chuyên đề các đối tượng chất lượng dữ liệu và tính đầy đủ và cách thể hiện các kết quả các trị đo trong các khoản text, các sai lấy nhầm vào không đầy đủ và thống kê sai số;

  • 1/9 nhà không có số liệu về số người sở hữu;

  • Bias: 2/8 = - 0,25 người sở hữu;

  • RMSE: 0,87 người sở hữu;

  • Kích thước mẫu: 8.

G.3.3.4 Attribute "number of occupants" of houses as an example of accuracy of a quantitative feature attribute defined by a value. The following demonstrates a way to measure the data quality elements thematic accuracy and completeness, and how to express the results of the measurements in terms of text, commission/omission ratios and error statistics.

  • 1/9 houses has no value for the number of occupants;

  • bias : -2/8=-0,25 occupants;

  • RMSE : 0,87 occupant;

  • sample size : 8.



G.4 Báo cáo các kết quả chất lượng

G.4.1 Ví dụ về lỗi đầy đủ

Ví dụ minh họa ở G.4.2 và G.4.3 trình bày cách báo cáo các kết quả chất lượng cho một kiểu lỗi, các lỗi thừa kiểu đối tượng đường mòn. Đầu tiên các kết quả chất lượng được thông báo như là dữ liệu metadata. Một bản báo cáo đánh giá chất lượng dữ liệu khi đố được sử dụng để báo thông tin chi tiết về chất lượng.dữ liệu



G.4 Reporting quality results

G.4.1 Example of error of commission

The following gives an example how to report the quality results for one type of error, commission errors for feature type “path”. First the quality results have been reported as metadata. A data quality evaluation report is then used to report detailed quality information.


G.4.2 Báo cáo trong siêu dữ liệu

Hình G.6 là ví dụ về cách lập báo cáo chất lượng như là một bản metadata được mô tả trong ISO 19115. Giải thích các mã sử dụng từ ISO 19115 được cho trong dấu ngoặc đơn, nhưng không phải thành phần của thông báo.



G.4.2 Reporting in metadata

The following is an example of how to report the quality results as metadata as described in ISO 19115. The explanation of the codes used from ISO 19115 are given in parenthesis, but are not part of the report.







Chất lượng dữ liệu




DQ_Phạm vi




scpLvl

012 (kiểu đối tượng)




Extent







exDesc

Phạm vi tập dữ liệu




geoEle







exTypeCode

1 (inclusion)




GeoBndBox







westBL

+005.0134




eastBL

+005.0228




southBL

+22.956




northBL

+23.003




DQ_Completeness







DQ Omission







DQ Measure







nameOfMeasure

Đếm




domainOfMeasure

Số lượng




Miêu tả

Số cây thiếu




Thủ tục đánh giá

So sánh số cây trong nguồn và tập dữ liệu




Ngày giờ

2000-09-14




DQ Result




DQ QuantitativeResult







Miền giá trị

{0 ... n }




Kết quả

2

Hình G.6 Báo cáo bằng siêu dữ liệu theo ISO 19115


Data Quality




DQ_Scope




scpLvl

012 (feature type)




Extent







exDesc

Extent of dataset




geoEle







exTypeCode

1 (inclusion)




GeoBndBox







westBL

+005.0134




eastBL

+005.0228




southBL

+22.956




northBL

+23.003




DQ_Completeness







DQ Omission







DQ Measure







nameOfMeasure

count




domainOfMeasure

number




description

number of trees missing




evaluationProcedure

compare count of trees in source and dataset




dateTime

2000-09-14




DQ Result




DQ QuantitativeResult







valueDomain

{0 ... n }




result

2

Figure G.6 - Reporting as metadata accordina to ISO 19115

G.4.3 Báo cáo đánh giá chất lượng dữ liệu

Hình G.7 là một ví dụ về cách lập báo cáo kết quả chất lượng dữ liệu theo kiểu báo cáo riêng về chất lượng dữ liệu



G.4.3 Reporting as quality evaluation report

Figure G.7 is an example of how to report the quality results as a data quality report.






addQualityReport







reportldentification

Báo cáo chất lượng về ví dụ trong phụ lục này




reportScope

Tập dữ liệu




compQuantDesc







dataQualMeasure







mathDesc

Số các đối tượng trong tập dữ liệu chia cho số các đối tượng trong thực tế rồi nhân với 100




compMeasValue

Tỷ lệ




valType

Số thực




realibilityValue

100




realibilityValueUnits







conformConfidence







conformConfValue







conformConfValDesc







referenceDoc







dqeMethodTypelnfo







dqeMethodType

2 (nội bộ trực tiếp)




dqeSamplingApplies

3 (không áp dụng)




dqeMethodlnfo







dqeAssumptions







dqeProcAlgorithm

So sánh hình ảnh sốcây trong nguồn với tập dữ liệu




dqeParamlnfo







dqeParamDefinition







dqeParamValues







dqeParamDomain







dqeFulllnspectMetho







dqeFulllnspecType

Đếm số cây




dqeltemDesc

Số cây trong mỗi thông số kỹ thuật sản phẩm




referenceDoc







dqeSampleMethod







dqeSamplingSchem







dqeltemDescription







dqeLotDescription







dqeSamplingRation







dqeDeductiveSourc







dqeDeductRefDocs







referenceDoc







aggSourceValues




aggResult







aggValueDomain







aggMeasureValue







aggErrorStat







aggQEPreport







qepOtherDesc




Hình G.7 – Báo cáo đánh giá chất lượng theo ISO 19114:2003, Phụ lục I

addQualityReport







reportldentification

Quality Report of Example in this annex




reportScope

Dataset




compQuantDesc







dataQualMeasure







mathDesc

Number of items in dataset divided by number of items in universe of discourse multiplied by 100




compMeasValue

ratio




valType

real




realibilityValue

100




realibilityValueUnits







conformConfidence







conformConfValue







conformConfValDesc







referenceDoc







dqeMethodTypelnfo







dqeMethodType

2 (direct internal)




dqeSamplingApplies

3 (not applicable)




dqeMethodlnfo







dqeAssumptions







dqeProcAlgorithm

Compare visual count of trees in source with dataset




dqeParamlnfo







dqeParamDefinition







dqeParamValues







dqeParamDomain







dqeFulllnspectMetho







dqeFulllnspecType

Count of trees




dqeltemDesc

Trees per product specification




referenceDoc







dqeSampleMethod







dqeSamplingSchem







dqeltemDescription







dqeLotDescription







dqeSamplingRation







dqeDeductiveSourc







dqeDeductRefDocs







referenceDoc







aggSourceValues




aggResult







aggValueDomain







aggMeasureValue







aggErrorStat







aggQEPreport







qepOtherDesc




Figure G.7 – Quality Evaluation Report according to ISO 19114:2003, Annex I

Phụ lục H

(tham khảo)



Ví dụ về kết quả chất lượng dữ liệu tổng hợp

Annex H

(informative)

Example of an aggregated data quality result


H.1 Giới thiệu

Các thông tin trong ví dụ này dựa trên các kỹ thuật sử dụng trong công nghiệp tư nhân ở châu Âu, Bắc Mỹ và Châu Á. Mục tiêu của các ví dụ được mô tả là để minh họa các kỹ thuật về đo lường và kết hợp chính xác theo chủ đề, sự đầy đủ và chính xác vị trí trong một tập dữ liệu đường.

Ví dụ này là chỉ quan tâm đến lập báo kết quả chất lượng dữ liệu tổng hợp. Không có so sánh với một mức độ chất lượng phù hợp khác


H.1 Introduction

The information in this example is based on techniques in use in private industry in Europe, North America and Asia. The objective of the example described is to illustrate the techniques of the measurement and aggregation of thematic accuracy, completeness and positional accuracy in a road-based dataset.

This example is concerned only with reporting an aggregated data quality result. No comparison with a conformance quality level is made.


H.2 Mô tả tập dữ liệu

H.2.1 Trình bày thế giới thực

Thế giới thực được trình bày trong hình H.1. mà cũng mô tả một mảnh được vẽ từ dữ liệu đầy đủ của dữ liệu đường bộ. Khu vực hình chữ nhật được tô bóng ở lưới vuông B-2 đại diện cho các đơn vị lấy mẫu được lựa chọn ngẫu nhiên để được kiểm tra.



H.2 Dataset description

H.2.1 Real world representation

The real world is represented by Figure H.1. which also depicts a lot drawn from the full dataset of road-based data. The shaded rectangular area at grid square B-2 represents the randomly selected sampling unit to be tested.





Hình H.1 — Mảnh được lựa chọn ngẫu nhiên từ cơ sở dữ liệu đầy đủ và đơn vị lấy mẫu được lựa chọn ngẫu nhiên (hình chữ nhật bóng mờ tối hơn)






1   ...   8   9   10   11   12   13   14   15   16


Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2019
được sử dụng cho việc quản lý

    Quê hương