Geographic information quality evaluation procedures



tải về 5.76 Mb.
trang6/16
Chuyển đổi dữ liệu08.06.2018
Kích5.76 Mb.
1   2   3   4   5   6   7   8   9   ...   16



D. 6 Các ví dụ về tiêu chuẩn để đánh giá độ chính xác thời gian chất lượng dữ liệu

Độ chính xác thời gian là mức độ chính xác của các thuộc tính thời gian và mối quan hệ thời gian. Độ chính xác thời gian có các thành phần phụ sau đây:

- Độ chính xác của phương pháp đo thời gian: tính chính xác của các tham chiếu thời gian (thông báo lỗi trong đo lường thời gian);

- Sự ổn định về thời gian: tính chính xác của các sự kiện đặt hàng hoặc chuỗi;

- độ đúng đắn về mặt thời gian: là mức độ đúng đắn của dữ liệu theo thời gian.

Bảng D.5 cung cấp một số ví dụ về độ chính xác chuyên đề cho độ chính xác các thành phần phụ về đo lường thời gian, sự ổn định về thời gian và sự đúng đắn về mặt thời gian.



D.6 Examples data quality temporal accuracy measures

Temporal accuracy is the accuracy of the temporal attributes and temporal relationships. Temporal accuracy has the following subelements:

- accuracy of a time measurement: correctness of the temporal references of an time (reporting of error in time measurement);

- temporal consistency: correctness of ordered events or sequences;

- temporal validity: validity of data with respect to time.

Table D.5 provides some examples of thematic accuracy for the subelements accuracy of a time measurement, temporal consistency and temporal validity




Bảng D.5 — Các ví dụ về tiêu chuẩn để đánh giá độ chính xác thời gian chất lượng dữ liệu

Thành phần chất lượng dữ liệu

Ví dụ 1

Ví dụ 2

Ví dụ 3

DQ_Scope

Tất cả các dữ liệu tai nạn giao thông trong tập dữ liệu

Tất cả các dữ liệu tai nạn giao thông trong khu vực giới hạn bởi kinh độ 139 140 và vĩ độ +36,0 +37,0

Tất cả các dữ liệu tai nạn giao thông ở thành phố London, Anh

DQ _Element

4 – độ chính xác thời gian

4 - độ chính xác thời gian

4 - độ chính xác thời gian

DQ_ Subelement

1 – độ chính xác của phép đo thời gian

1 - độ chính xác của phép đo thời gian

1 - độ chính xác của phép đo thời gian




DQ_ Measure













DQ_MeasureDesc

RMSE

Phần trăm của các đối tượng bị lỗi thuộc tính lớn hơn giới hạn quy định

Chấp nhận – không chấp nhận




DQ_ MeasureID

40101

40102

40103

DQ_ EvalMethod
















DQ_EvalMethodType

2 – bên ngoài

2 – bên ngoài

2 – bên ngoài

DQ_EvalMethodDesc

Đối với mỗi dữ liệu tai nạn giao thông, đo sự khác biệt giữa thời gian xảy ra tai nạn trong tập dữ liệu và trong thực tế. Tính RMSE từ sự khác biệt thời gian xảy ra.

Đối với mỗi dữ liệu tai nạn giao thông, đo sự khác biệt giữa thời gian xảy ra tai nạn trong tập dữ liệu và trong thực tế. Đếm số lượng các vụ tai nạn xảy ra có thời gian khác nhau vượt quá giới hạn quy định (ví dụ 2 giờ). Chia số dữ liệu tai nạn không phù hợp bởi số lượng dữ liệu tai nạn trong phạm vi chất lượng dữ liệu, và nhân kết quả với 100.

Đối với mỗi dữ liệu tai nạn giao thông, đo sự khác biệt giữa thời gian xảy ra tai nạn trong tập dữ liệu và trong thực tế. Đếm số lượng các vụ tai nạn xảy ra có thời gian khác nhau vượt quá giới hạn quy định (ví dụ 2 giờ). Chia số dữ liệu tai nạn không phù hợp bởi số lượng dữ liệu tai nạn trong phạm vi chất lượng dữ liệu, và nhân kết quả với 100. So sánh tỷ lệ phần trăm của dữ liệu tai nạn không phù hợp so với mức chất lượng phù hợp.

DQ _QualityResult













DQ_ ValueType

2 – giá trị số

4 – giá trị phần trăm

1 – giá trị Boolean




DQ _Value

1,5 giờ

18

False







DQ _ValueUnit

giờ

Phần trăm

N.A.




DQ_ Date

2000-03-06

2000-03-06

2000-03-06

DQ _ConformanceLevel

Không quy định

Không quy định

10%

Ví dụ về các tham số của tập dữ liệu

Không đầy đủ

Không đầy đủ

Không đầy đủ

Ví dụ về dự định kết quả chất lượng

Sai số trung phương thời gian xảy ra là 1,5 giờ. Khi mức chất lượng phù hợp không được quy định, chỉ có RMSE được báo cáo.

18% dữ liệu tai nạn trong phạm vi chất lượng dữ liệu có lỗi thời gian xảy ra hơn 2 giờ. Khi mức chất lượng phù hợp không được quy định, chỉ tỷ lệ phần trăm được báo cáo.

Không chấp nhận tập dữ liệu. Phần trăm dữ liệu tai nạn không phù hợp vượt quá mức cho phép.

Table D.5 — Examples of data quality temporal accuracy measures

Data quality component

Example 1

Example 2

Example 3

DQ_Scope

All traffic accident data in the dataset

All traffic accident data in the area bounded by longitudes +139 +140 and latitudes +36,0 +37,0

All traffic accident data in the city of London, UK

DQ _Element

4 - temporal accuracy

4 - temporal accuracy

4 - temporal accuracy

DQ _Subelement

1 - accuracy of a time measurement

1 - accuracy of a time measurement

1 - accuracy of a time measurement




DQ_ Measure













DQ_MeasureDesc

RMSE

Percentage of items with the error of temporal attribute greater than specification limit

Pass-fail




DQ _MeasureID

40101

40102

40103

DQ _EvalMethod
















DQ_EvalMethodType

2 - external

2 - external

2 - external

DQ_EvalMethodDesc

For each traffic accident data, measure the difference between accident occurrence time in the dataset and that in the universe of discourse. Compute RMSE from the occurrence time differences.

For each traffic accident data, measure the difference between accident occurrence time in the dataset and that in the universe of discourse. Count the number of the accidents whose occurrence time difference exceeds the specification limit (e.g. 2 hours). Divide the number of the non-conforming accident data by the number of accident data in the data quality scope, and multiply the result by 100.

For each traffic accident data, measure the difference between accident occurrence time in the dataset and that in the universe of discourse. Count the number of the accidents whose occurrence time difference exceeds the specification limit (e.g. 2 hours). Divide the number of the non-conforming accident data by the number of accident data in the data quality scope, and multiply the result by 100. Compare the percentage of the non­conforming accident data against the conformance quality level.

DQ _QualityResult













DQ_ ValueType

2 - number

4 - Percentage

1 - Boolean variable




DQ _Value

1,5 hours

18

False







DQ_ ValueUnit

hours

percent

N.A.




DQ_ Date

2000-03-06

2000-03-06

2000-03-06

DQ_ ConformanceLevel

Not specified

Not specified

10%

Example dataset parameters

Omitted

Omitted

Omitted

Example quality result meaning

RMSE of occurrence time is 1,5 hours. Since conformance quality level is not specified, only the RMSE is reported

18% of the accident data within the data quality scope have occurrence time error more than 2 hours. Since conformance quality level is not specified, only the percentage is reported

Dataset fails. Percentage of non conforming accident data exceeds the conformance quality level

Bảng D.5 (tiếp theo)

Thành phần chất lượng dữ liệu

Ví dụ 4

Ví dụ 5

Ví dụ 6

DQ_Scope

Tất cả các dữ liệu sự kiện lịch sử trong các tập dữ liệu

Tất cả các dữ liệu sự kiện lịch sử trong khu vực giới hạn bởi kinh độ +139 +140 và vĩ độ +36,0 +37,0

Tất cả các dữ liệu sự kiện lịch sử ở Trung Quốc.

DQ _Element

4 – độ chính xác về thời gian

4 - độ chính xác về thời gian

4 - độ chính xác về thời gian

DQ _Subelement

2 – ổn định về thời gian

2 – ổn định về thời gian

2 – ổn định về thời gian

DQ _Measure













DQ_MeasureDesc

Chấp nhận-không chấp nhận

Số lượng các đối tượng với các mối quan hệ thời gian không ổn định

Phần trăm các đối tượng với các mối quan hệ thời gian không ổn định




DQ_ MeasureID

40201

40202

40203




DQ_ EvalMethod
















DQ_EvalMethodType

1- Bên ngoài

1- Bên ngoài

1- Bên ngoài







DQ_EvalMethodDesc

Kiểm tra từng sự kiện lịch sử để đảm bảo rằng nó được sắp xếp một cách chính xác đối với phần còn lại của dữ liệu sự kiện.

Kiểm tra từng sự kiện lịch sử để đảm bảo rằng nó được sắp xếp một cách chính xác trong chuỗi sự kiện. Đếm những phần tử bị sắp xếp sai về thời gian.

Kiểm tra từng sự kiện lịch sử để đảm bảo rằng nó được sắp xếp một cách chính xác đối với phần còn lại của dữ liệu sự kiện. Đếm những phần tử sắp xếp không chính xác. Chia kết quả đếm được cho tổng số phần tử và nhân với 100.




DQ _QualityResult
















DQ_ ValueType

1 – giá trị Boolean

2 – giá trị số

4 – giá trị %







DQ_ Value

False

3

60%







DQ_ ValueUnit

N.A.

Không ổn định về mặt thời gian

Phần trăm không ổn định về thời gian

DQ _Date

2000-03-06

2000-03-06

2000-03-06

DQ_ConformanceLevel

Không có đối tượng nào có thể không ổn định về thời gian

Không có đối tượng nào có thể không ổn định về thời gian

Không phần trăm các đối tượng có thể không ổn định về thời gian

Ví dụ về các tham số của tập dữ liệu

5 sự kiện lịch sử trong phạm vi chất lượng dữ liệu; {A, B, C, D, E} là đúng trình tự. Trong một tập dữ liệu, năm sự kiện được ghi lại theo thứ tự {A, B, D, E, C}. Sự kiện riêng (A, B, C, D, E) được định nghĩa là một đối tượng. Đối tượng có thứ tự không phù hợp là (C, D, E).

5 sự kiện lịch sử trong phạm vi chất lượng dữ liệu; {A, B, C, D, E} là đúng trình tự. Trong một tập dữ liệu, năm sự kiện được ghi lại theo thứ tự {A, B, D, E, C}. Sự kiện riêng (A, B, C, D, E) được định nghĩa là một đối tượng. Đối tượng có thứ tự không phù hợp là (C, D, E).

5 sự kiện lịch sử trong phạm vi chất lượng dữ liệu; {A, B, C, D, E} là đúng trình tự. Trong một tập dữ liệu, năm sự kiện được ghi lại theo thứ tự {A, B, D, E, C}. Sự kiện riêng (A, B, C, D, E) được định nghĩa là một đối tượng. Đối tượng có thứ tự không phù hợp là (C, D, E).

Ví dụ về dự định kết quả chất lượng

Không chấp nhận tập dữ liệu. Do không ổn định về mặt thời gian

Không chấp nhận tập dữ liệu. Số lượng không ổn định về mặt thời gian vượt quá mức chất lượng phù hợp.

Không chấp nhận tập dữ liệu. Phần trăm không ổn định về mặt thời gian vượt quá mức chất lượng phù hợp.

Table D.5 (continued)

Data quality component

Example 4

Example 5

Example 6

DQ_Scope

All historical event data in the dataset

All historical event data in the area bounded by longitudes +139 +140 and latitudes +36,0 +37,0

All historical event data in China.

DQ _Element

4 - temporal accuracy

4 - temporal accuracy

4 - temporal accuracy

DQ _Subelement

2 - temporal consistency

2 - temporal consistency

2 - temporal consistency

DQ _Measure













DQ_MeasureDesc

Pass-fail

Number of items with inconsistent temporal relationships

Percent of items with inconsistent temporal relationships




DQ _MeasureID

40201

40202

40203




DQ _EvalMethod
















DQ_EvalMethodType

1- External

1- External

1- External







DQ_EvalMethodDesc

Check each historical event to assure that it is correctly ordered against the rest of event data.

Check each historical event to assure that it is correctly ordered against the rest of event data. Count those that are not correctly ordered.

Check each historical event to assure that it is correctly ordered against the rest of event data. Count those that are not correctly ordered. Divide the result by the total number of items within scope and multiply it by 100.




DQ _QualityResult
















DQ _ValueType

1 - Boolean variable

2 - Number

4 - Percentage







DQ _Value

False

3

60%







DQ _ValueUnit

N.A.

Temporal inconsistencies

percent of temporal inconsistencies

DQ _Date

2000-03-06

2000-03-06

2000-03-06

DQ_ConformanceLevel

Zero items may have temporal inconsistency.

Zero items may have temporal inconsistency.

Zero percent of items may have temporal inconsistency.

Example dataset parameters

5 historical events in the data quality scope; {A,B,C,D,E} is the correct sequence. In the dataset, the five events are recorded in the order of {A,B,D,E,C}. Individual event (A,B,C,D,E ) is defined to be an item. Items with inconsistent order are (C,D,E).

5 historical events in the data quality scope; {A,B,C,D,E} is the correct sequence. In the dataset, the five events are recorded in the order of {A,B,D,E,C}. Individual event (A,B,C,D,E ) is defined to be an item. Items with inconsistent temporal order are (C,D,E).

5 historical events in the data quality scope; {A,B,C,D,E} is the correct sequence. In the dataset, the five events are recorded in the order of {A,B,D,E,C}. Individual event (A,B,C,D,E) is defined to be an item. Items with inconsistent order are (C,D,E).

Example quality result meaning

Dataset fails. Temporal inconsistency is found.

Dataset fails. Number of temporal inconsistencies exceeds conformance quality level.

Dataset fails. Percentage of temporal inconsistencies exceeds conformance quality level.

Bảng D.5 (tiếp theo)

Thành phần chất lượng dữ liệu

Ví dụ 7

Ví dụ 8

Ví dụ 9

DQ_Scope

Tất cả dữ liệu về giá đất trong tập dữ liệu

Tất cả dữ liệu về giá đất trong khu vực giới hạn bởi kinh độ +139 +140 và vĩ độ +36,0 +37,0

Tất cả dữ liệu về giá đất ở thành phố Tokyo, Nhật Bản

DQ _Element

4 – độ chính xác về thời gian

4 – độ chính xác về thời gian

4 – độ chính xác về thời gian

DQ_ Subelement

3 – giá trị thời gian

3 - giá trị thời gian

3 - giá trị thời gian




DQ _Measure
















DQ_ MeasureDesc

Chấp nhận – không chấp nhận

Số lượng các đối tượng với giá trị thời gian

Tỷ lệ phần trăm các đối tượng với giá trị thời gian







DQ_ MeasureID

40301

40302

40303







DQ_ EvalMethod



















DQ_EvalMethodType

1- Nội bộ

1- Nội bộ

1- Nội bộ










DQ_EvalMethodDesc

Kiểm tra dữ liệu giá đất để đảm bảo rằng nó đã được khảo sát năm 1995.

Kiểm tra dữ liệu giá đất để đảm bảo rằng nó đã được khảo sát năm 1995. Đếm những đối tượng không được khảo sát trong năm 1995.

Kiểm tra dữ liệu giá đất để đảm bảo rằng nó đã được khảo sát trong năm 1995. Đếm những đối tượng không được khảo sát trong năm 1995. Chia kết quả cho tổng số các đối tượng trong phạm vi chất lượng dữ liệu và nhân với 100.







DQ_QualityResult



















DQ _ValueType

1 – Giá trị Boolean

2 – Giá trị số

4 – Giá trị phần trăm










DQ_ Value

False

5

5%










DQ _ValueUnit

N.A.

Giá trị thời gian

Phần trăm




DQ_ Date

2000-03-06

2000-03-06

2000-03-06




DQ_ConformanceLevel

Không có đối tượng có thể có giá trị thời gian.

10 hoặc ít hơn các đối tượng có thể có giá trị thời gian.

Ít hơn 10 phần trăm các đối tượng có thể có giá trị thời gian.

Ví dụ về các tham số của tập dữ liệu

100 đối tượng thu thập năm 1995 trong tập dữ liệu; có 95 đối tượng được thu thập thực tế vào năm 1995, và 5 đối tượng được thu thập năm 1985.

100 đối tượng thu thập năm 1995 trong phạm vi chất lượng dữ liệu; có 95 đối tượng được thu thập thực tế vào năm 1995, và 5 đối tượng được thu thập năm 1985.

100 đối tượng thu thập năm 1995 trong phạm vi chất lượng dữ liệu; có 95 đối tượng được thu thập thực tế vào năm 1995, và 5 đối tượng được thu thập năm 1985.

Ví dụ về dự định kết quả chất lượng

Không chấp nhận tập dữ liệu. Có ít nhất một đối tượng có giá trị thời gian.

Chấp nhận tập dữ liệu. Có ít hơn 10 đối tượng có giá trị thời gian.

Chấp nhận tập dữ liệu. Có ít hơn 10% đối tượng có giá trị thời gian.

Table D.5 (continued)

Data quality component

Example 7

Example 8

Example 9

DQ_Scope

All land price data in the dataset

All land price data in the area bounded by longitudes +139 +140 and latitudes +36,0 +37,0

All land price data in the city of Tokyo, Japan

DQ_ Element

4 - temporal accuracy

4 - temporal accuracy

4 - temporal accuracy

DQ_ Subelement

3 - temporal validity

3 - temporal validity

3 - temporal validity




DQ _Measure
















DQ_ MeasureDesc

Pass-fail

Number of items with temporal invalidity

Percentage of items with temporal invalidity







DQ _MeasureID

40301

40302

40303







DQ _EvalMethod



















DQ_ EvalMethodType

1- Internal

1- Internal

1- Internal










DQ_EvalMethodDesc

Check land price data to assure that it was surveyed in 1995.

Check land price data to assure that it was surveyed in 1995. Count those that were not surveyed in 1995.

Check land price data to assure that it was surveyed in 1995. Count those that were not surveyed in 1995. Divide the result by the total number of items in data quality scope and multiply it by 100.







DQ _QualityResult



















DQ _ValueType

1 - Boolean variable

2 - Number

4 - Percentage










DQ_ Value

False

5

5%










DQ_ ValueUnit

N.A.

Temporal invalidity

Percent




DQ _Date

2000-03-06

2000-03-06

2000-03-06




DQ_ConformanceLevel

Zero items may have temporal invalidity.

10 or fewer items may have temporal invalidity.

Less than 10 percent of the items may have temporal invalidity.

Example dataset parameters

100 items with the collection date of 1995 in the dataset ; 95 were actually collected in 1995 ; 5 were actually collected in 1985

100 items with the collection date of 1995 in the data quality scope ; 95 were actually collected in 1995 ; 5 were actually collected in 1985

100 items with the collection date of 1995 in the data quality scope ; 95 were actually collected in 1995 ; 5 were actually collected in 1985

Example quality result meaning

Dataset fails. At least one item has temporal invalidity.

Dataset passes. Fewer than ten items had temporal invalidity.

Dataset passes. Less than 10 percent of the items had temporal invalidity.



D. 7 Các ví dụ về tiêu chuẩn để đánh giá độ chính xác chuyên đề chất lượng dữ liệu

Độ chính xác theo chuyên đề là mức độ chính xác của các thuộc tính định lượng và mức độ chính xác của các thuộc tính phi định lượng, phân loại các đối tượng và các mối quan hệ của chúng. Độ chính xác theo chuyên đề có các thành phần phụ sau đây:


- Phân loại chính xác: so sánh các lớp giao cho các đối tượng hoặc các thuộc tính của chúng với thực tế (mặt đất hoặc tập dữ liệu tham chiếu);

- Độ chính xác của thuộc tính phi định lượng: độ chính xác của các thuộc tính phi định lượng;

- Độ chính xác của thuộc tính định lượng: độ chính xác của các thuộc tính định lượng.

Bảng D.6 cung cấp một số ví dụ về độ chính xác theo chuyên đề cho các thành phần phụ.


D.7 Example of data quality thematic accuracy measures

Thematic accuracy is the accuracy of quantitative attributes and the correctness of non-quantitative attributes and of the classifications of features and their relationships. Thematic accuracy has the following sub-elements:

- classification correctness: comparison of the classes assigned to features or their attributes to a universe of discourse (ground truth or reference dataset);

- non-quantitative attribute correctness: correctness of non-quantitative attributes;

- quantitative attribute correctness: accuracy of quantitative attributes.

Table D.6 provides some examples of thematic accuracy for the sub-elements




Bảng D.6 — Các ví dụ về tiêu chuẩn để đánh giá chính xác chuyên đề chất lượng dữ liệu

Thành phần chất lượng dữ liệu

Ví dụ 1


Ví dụ 2

Ví dụ 3

DQ_Scope

Tất cả đối tượng được phân loại là A, B và C trong tập dữ liệu

Tất cả đối tượng được phân loại là A, B và C trong khu vực giới hạn bởi kinh độ +139 +140 và vĩ độ +36,0 +37,0

Tất cả đối tượng được phân loại là A, B và C ở Ả Rập.

DQ_ Element

5 - Độ chính xác chuyền đề

5 - Độ chính xác chuyền đề

5 - Độ chính xác chuyền đề

DQ_ Subelement

1 - độ chính xác phân loại

1 - độ chính xác phân loại

1 - độ chính xác phân loại




DQ _Measure













DQ _MeasureDesc

Chấp nhận-không chấp nhận

Phần trăm phân loại chính xác (PCC)

Ma trận tỷ lệ phần trăm phân loại sai




DQ _MeasureID

50101

50102

50103

DQ _EvalMethod
















DQ_EvalMethodType

2 – bên ngoài

2 - bên ngoài

2 - bên ngoài

DQ_EvalMethodDesc

Đối với mỗi đối tượng trong tập dữ liệu, so sánh các lớp được chỉ định với các lớp trong thực tế.

Đối với mỗi đối tượng trong tập dữ liệu, so sánh các lớp được chỉ định với các lớp trong thực tế. Đếm các đối tượng được phân loại một cách chính xác. Chia kết quả cho tổng số các đối tượng trong phạm vi chất lượng dữ liệu và nhân với 100.

Đối với mỗi đối tượng trong tập dữ liệu, so sánh các lớp được chỉ định với các lớp trong thực tế. Tạo ra một ma trận của N (i, j) trong đó N (i, j) là số các đối tượng của lớp (i) được phân loại như lớp (j) trong tập dữ liệu. Chia N (i, j) cho tổng số các đối tượng của lớp (i) và nhân với 100.

DQ _QualityResult













DQ_ ValueType

1 – Giá trị Boolean

4 – Phần trăm

8 - Ma trận




DQ_Value

False

60%




Dataset class

True

class

i




A

B

C

%

A

70

20

10

100

B

20

40

40

100

C

20

20

60

100

%

100

100

100










DQ_ ValueUnit

N.A.

Phần trăm

Phần trăm




DQ _Date

2000-03-06

2000-03-06

2000-03-06

DQ_ConformanceLevel

Không có đối tượng nào bị phân loại sai

80 % các đối tượng được phân loại đúng

Không quy định







Dataset class




Dataset class




Dataset class

True

class




A

B

C

Count

True

class




A

B

C

Count

True

class




A

B

C

Count

A

7

2

1

10

A

7

2

1

10

A

7

2

1

10

B

1

2

2

5

B

1

2

2

5

B

1

2

2

5

C

1

1

3

5

C

1

1

3

5

C

1

1

3

5

Count

9

5

6

20

Count

9

5

6

20

Count

9

5

6

20

Ví dụ về dự định kết quả chất lượng

Không chấp nhận tập dữ liệu. Có 8 đối tượng bị phân loại sai.

Không chấp nhận tập dữ liệu. 40% các đối tượng bị phân loại sai.

Vì không có mức chất lượng phù hợp được quy định, ma trận phân loại sai được báo cáo.

Table D.6 — Examples of data quality thematic accuracy measures





1   2   3   4   5   6   7   8   9   ...   16


Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2019
được sử dụng cho việc quản lý

    Quê hương