D. 6 Các ví dụ về tiêu chuẩn để đánh giá độ chính xác thời gian chất lượng dữ liệu
Độ chính xác thời gian là mức độ chính xác của các thuộc tính thời gian và mối quan hệ thời gian. Độ chính xác thời gian có các thành phần phụ sau đây:
- Độ chính xác của phương pháp đo thời gian: tính chính xác của các tham chiếu thời gian (thông báo lỗi trong đo lường thời gian);
- Sự ổn định về thời gian: tính chính xác của các sự kiện đặt hàng hoặc chuỗi;
- độ đúng đắn về mặt thời gian: là mức độ đúng đắn của dữ liệu theo thời gian.
Bảng D.5 cung cấp một số ví dụ về độ chính xác chuyên đề cho độ chính xác các thành phần phụ về đo lường thời gian, sự ổn định về thời gian và sự đúng đắn về mặt thời gian.
|
D.6 Examples data quality temporal accuracy measures
Temporal accuracy is the accuracy of the temporal attributes and temporal relationships. Temporal accuracy has the following subelements:
- accuracy of a time measurement: correctness of the temporal references of an time (reporting of error in time measurement);
- temporal consistency: correctness of ordered events or sequences;
- temporal validity: validity of data with respect to time.
Table D.5 provides some examples of thematic accuracy for the subelements accuracy of a time measurement, temporal consistency and temporal validity
|
Bảng D.5 — Các ví dụ về tiêu chuẩn để đánh giá độ chính xác thời gian chất lượng dữ liệu
Thành phần chất lượng dữ liệu
|
Ví dụ 1
|
Ví dụ 2
|
Ví dụ 3
|
DQ_Scope
|
Tất cả các dữ liệu tai nạn giao thông trong tập dữ liệu
|
Tất cả các dữ liệu tai nạn giao thông trong khu vực giới hạn bởi kinh độ 139 140 và vĩ độ +36,0 +37,0
|
Tất cả các dữ liệu tai nạn giao thông ở thành phố London, Anh
|
DQ _Element
|
4 – độ chính xác thời gian
|
4 - độ chính xác thời gian
|
4 - độ chính xác thời gian
|
DQ_ Subelement
|
1 – độ chính xác của phép đo thời gian
|
1 - độ chính xác của phép đo thời gian
|
1 - độ chính xác của phép đo thời gian
|
|
DQ_ Measure
|
|
|
|
|
DQ_MeasureDesc
|
RMSE
|
Phần trăm của các đối tượng bị lỗi thuộc tính lớn hơn giới hạn quy định
|
Chấp nhận – không chấp nhận
|
|
DQ_ MeasureID
|
40101
|
40102
|
40103
|
DQ_ EvalMethod
|
|
|
|
|
|
DQ_EvalMethodType
|
2 – bên ngoài
|
2 – bên ngoài
|
2 – bên ngoài
|
DQ_EvalMethodDesc
|
Đối với mỗi dữ liệu tai nạn giao thông, đo sự khác biệt giữa thời gian xảy ra tai nạn trong tập dữ liệu và trong thực tế. Tính RMSE từ sự khác biệt thời gian xảy ra.
|
Đối với mỗi dữ liệu tai nạn giao thông, đo sự khác biệt giữa thời gian xảy ra tai nạn trong tập dữ liệu và trong thực tế. Đếm số lượng các vụ tai nạn xảy ra có thời gian khác nhau vượt quá giới hạn quy định (ví dụ 2 giờ). Chia số dữ liệu tai nạn không phù hợp bởi số lượng dữ liệu tai nạn trong phạm vi chất lượng dữ liệu, và nhân kết quả với 100.
|
Đối với mỗi dữ liệu tai nạn giao thông, đo sự khác biệt giữa thời gian xảy ra tai nạn trong tập dữ liệu và trong thực tế. Đếm số lượng các vụ tai nạn xảy ra có thời gian khác nhau vượt quá giới hạn quy định (ví dụ 2 giờ). Chia số dữ liệu tai nạn không phù hợp bởi số lượng dữ liệu tai nạn trong phạm vi chất lượng dữ liệu, và nhân kết quả với 100. So sánh tỷ lệ phần trăm của dữ liệu tai nạn không phù hợp so với mức chất lượng phù hợp.
|
DQ _QualityResult
|
|
|
|
|
DQ_ ValueType
|
2 – giá trị số
|
4 – giá trị phần trăm
|
1 – giá trị Boolean
|
|
DQ _Value
|
1,5 giờ
|
18
|
False
|
|
|
DQ _ValueUnit
|
giờ
|
Phần trăm
|
N.A.
|
|
DQ_ Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
DQ _ConformanceLevel
|
Không quy định
|
Không quy định
|
10%
|
Ví dụ về các tham số của tập dữ liệu
|
Không đầy đủ
|
Không đầy đủ
|
Không đầy đủ
|
Ví dụ về dự định kết quả chất lượng
|
Sai số trung phương thời gian xảy ra là 1,5 giờ. Khi mức chất lượng phù hợp không được quy định, chỉ có RMSE được báo cáo.
|
18% dữ liệu tai nạn trong phạm vi chất lượng dữ liệu có lỗi thời gian xảy ra hơn 2 giờ. Khi mức chất lượng phù hợp không được quy định, chỉ tỷ lệ phần trăm được báo cáo.
|
Không chấp nhận tập dữ liệu. Phần trăm dữ liệu tai nạn không phù hợp vượt quá mức cho phép.
|
Table D.5 — Examples of data quality temporal accuracy measures
Data quality component
|
Example 1
|
Example 2
|
Example 3
|
DQ_Scope
|
All traffic accident data in the dataset
|
All traffic accident data in the area bounded by longitudes +139 +140 and latitudes +36,0 +37,0
|
All traffic accident data in the city of London, UK
|
DQ _Element
|
4 - temporal accuracy
|
4 - temporal accuracy
|
4 - temporal accuracy
|
DQ _Subelement
|
1 - accuracy of a time measurement
|
1 - accuracy of a time measurement
|
1 - accuracy of a time measurement
|
|
DQ_ Measure
|
|
|
|
|
DQ_MeasureDesc
|
RMSE
|
Percentage of items with the error of temporal attribute greater than specification limit
|
Pass-fail
|
|
DQ _MeasureID
|
40101
|
40102
|
40103
|
DQ _EvalMethod
|
|
|
|
|
|
DQ_EvalMethodType
|
2 - external
|
2 - external
|
2 - external
|
DQ_EvalMethodDesc
|
For each traffic accident data, measure the difference between accident occurrence time in the dataset and that in the universe of discourse. Compute RMSE from the occurrence time differences.
|
For each traffic accident data, measure the difference between accident occurrence time in the dataset and that in the universe of discourse. Count the number of the accidents whose occurrence time difference exceeds the specification limit (e.g. 2 hours). Divide the number of the non-conforming accident data by the number of accident data in the data quality scope, and multiply the result by 100.
|
For each traffic accident data, measure the difference between accident occurrence time in the dataset and that in the universe of discourse. Count the number of the accidents whose occurrence time difference exceeds the specification limit (e.g. 2 hours). Divide the number of the non-conforming accident data by the number of accident data in the data quality scope, and multiply the result by 100. Compare the percentage of the nonconforming accident data against the conformance quality level.
|
DQ _QualityResult
|
|
|
|
|
DQ_ ValueType
|
2 - number
|
4 - Percentage
|
1 - Boolean variable
|
|
DQ _Value
|
1,5 hours
|
18
|
False
|
|
|
DQ_ ValueUnit
|
hours
|
percent
|
N.A.
|
|
DQ_ Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
DQ_ ConformanceLevel
|
Not specified
|
Not specified
|
10%
|
Example dataset parameters
|
Omitted
|
Omitted
|
Omitted
|
Example quality result meaning
|
RMSE of occurrence time is 1,5 hours. Since conformance quality level is not specified, only the RMSE is reported
|
18% of the accident data within the data quality scope have occurrence time error more than 2 hours. Since conformance quality level is not specified, only the percentage is reported
|
Dataset fails. Percentage of non conforming accident data exceeds the conformance quality level
|
Bảng D.5 (tiếp theo)
Thành phần chất lượng dữ liệu
|
Ví dụ 4
|
Ví dụ 5
|
Ví dụ 6
|
DQ_Scope
|
Tất cả các dữ liệu sự kiện lịch sử trong các tập dữ liệu
|
Tất cả các dữ liệu sự kiện lịch sử trong khu vực giới hạn bởi kinh độ +139 +140 và vĩ độ +36,0 +37,0
|
Tất cả các dữ liệu sự kiện lịch sử ở Trung Quốc.
|
DQ _Element
|
4 – độ chính xác về thời gian
|
4 - độ chính xác về thời gian
|
4 - độ chính xác về thời gian
|
DQ _Subelement
|
2 – ổn định về thời gian
|
2 – ổn định về thời gian
|
2 – ổn định về thời gian
|
DQ _Measure
|
|
|
|
|
DQ_MeasureDesc
|
Chấp nhận-không chấp nhận
|
Số lượng các đối tượng với các mối quan hệ thời gian không ổn định
|
Phần trăm các đối tượng với các mối quan hệ thời gian không ổn định
|
|
DQ_ MeasureID
|
40201
|
40202
|
40203
|
|
DQ_ EvalMethod
|
|
|
|
|
|
DQ_EvalMethodType
|
1- Bên ngoài
|
1- Bên ngoài
|
1- Bên ngoài
|
|
|
DQ_EvalMethodDesc
|
Kiểm tra từng sự kiện lịch sử để đảm bảo rằng nó được sắp xếp một cách chính xác đối với phần còn lại của dữ liệu sự kiện.
|
Kiểm tra từng sự kiện lịch sử để đảm bảo rằng nó được sắp xếp một cách chính xác trong chuỗi sự kiện. Đếm những phần tử bị sắp xếp sai về thời gian.
|
Kiểm tra từng sự kiện lịch sử để đảm bảo rằng nó được sắp xếp một cách chính xác đối với phần còn lại của dữ liệu sự kiện. Đếm những phần tử sắp xếp không chính xác. Chia kết quả đếm được cho tổng số phần tử và nhân với 100.
|
|
DQ _QualityResult
|
|
|
|
|
|
DQ_ ValueType
|
1 – giá trị Boolean
|
2 – giá trị số
|
4 – giá trị %
|
|
|
DQ_ Value
|
False
|
3
|
60%
|
|
|
DQ_ ValueUnit
|
N.A.
|
Không ổn định về mặt thời gian
|
Phần trăm không ổn định về thời gian
|
DQ _Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
DQ_ConformanceLevel
|
Không có đối tượng nào có thể không ổn định về thời gian
|
Không có đối tượng nào có thể không ổn định về thời gian
|
Không phần trăm các đối tượng có thể không ổn định về thời gian
|
Ví dụ về các tham số của tập dữ liệu
|
5 sự kiện lịch sử trong phạm vi chất lượng dữ liệu; {A, B, C, D, E} là đúng trình tự. Trong một tập dữ liệu, năm sự kiện được ghi lại theo thứ tự {A, B, D, E, C}. Sự kiện riêng (A, B, C, D, E) được định nghĩa là một đối tượng. Đối tượng có thứ tự không phù hợp là (C, D, E).
|
5 sự kiện lịch sử trong phạm vi chất lượng dữ liệu; {A, B, C, D, E} là đúng trình tự. Trong một tập dữ liệu, năm sự kiện được ghi lại theo thứ tự {A, B, D, E, C}. Sự kiện riêng (A, B, C, D, E) được định nghĩa là một đối tượng. Đối tượng có thứ tự không phù hợp là (C, D, E).
|
5 sự kiện lịch sử trong phạm vi chất lượng dữ liệu; {A, B, C, D, E} là đúng trình tự. Trong một tập dữ liệu, năm sự kiện được ghi lại theo thứ tự {A, B, D, E, C}. Sự kiện riêng (A, B, C, D, E) được định nghĩa là một đối tượng. Đối tượng có thứ tự không phù hợp là (C, D, E).
|
Ví dụ về dự định kết quả chất lượng
|
Không chấp nhận tập dữ liệu. Do không ổn định về mặt thời gian
|
Không chấp nhận tập dữ liệu. Số lượng không ổn định về mặt thời gian vượt quá mức chất lượng phù hợp.
|
Không chấp nhận tập dữ liệu. Phần trăm không ổn định về mặt thời gian vượt quá mức chất lượng phù hợp.
|
Table D.5 (continued)
Data quality component
|
Example 4
|
Example 5
|
Example 6
|
DQ_Scope
|
All historical event data in the dataset
|
All historical event data in the area bounded by longitudes +139 +140 and latitudes +36,0 +37,0
|
All historical event data in China.
|
DQ _Element
|
4 - temporal accuracy
|
4 - temporal accuracy
|
4 - temporal accuracy
|
DQ _Subelement
|
2 - temporal consistency
|
2 - temporal consistency
|
2 - temporal consistency
|
DQ _Measure
|
|
|
|
|
DQ_MeasureDesc
|
Pass-fail
|
Number of items with inconsistent temporal relationships
|
Percent of items with inconsistent temporal relationships
|
|
DQ _MeasureID
|
40201
|
40202
|
40203
|
|
DQ _EvalMethod
|
|
|
|
|
|
DQ_EvalMethodType
|
1- External
|
1- External
|
1- External
|
|
|
DQ_EvalMethodDesc
|
Check each historical event to assure that it is correctly ordered against the rest of event data.
|
Check each historical event to assure that it is correctly ordered against the rest of event data. Count those that are not correctly ordered.
|
Check each historical event to assure that it is correctly ordered against the rest of event data. Count those that are not correctly ordered. Divide the result by the total number of items within scope and multiply it by 100.
|
|
DQ _QualityResult
|
|
|
|
|
|
DQ _ValueType
|
1 - Boolean variable
|
2 - Number
|
4 - Percentage
|
|
|
DQ _Value
|
False
|
3
|
60%
|
|
|
DQ _ValueUnit
|
N.A.
|
Temporal inconsistencies
|
percent of temporal inconsistencies
|
DQ _Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
DQ_ConformanceLevel
|
Zero items may have temporal inconsistency.
|
Zero items may have temporal inconsistency.
|
Zero percent of items may have temporal inconsistency.
|
Example dataset parameters
|
5 historical events in the data quality scope; {A,B,C,D,E} is the correct sequence. In the dataset, the five events are recorded in the order of {A,B,D,E,C}. Individual event (A,B,C,D,E ) is defined to be an item. Items with inconsistent order are (C,D,E).
|
5 historical events in the data quality scope; {A,B,C,D,E} is the correct sequence. In the dataset, the five events are recorded in the order of {A,B,D,E,C}. Individual event (A,B,C,D,E ) is defined to be an item. Items with inconsistent temporal order are (C,D,E).
|
5 historical events in the data quality scope; {A,B,C,D,E} is the correct sequence. In the dataset, the five events are recorded in the order of {A,B,D,E,C}. Individual event (A,B,C,D,E) is defined to be an item. Items with inconsistent order are (C,D,E).
|
Example quality result meaning
|
Dataset fails. Temporal inconsistency is found.
|
Dataset fails. Number of temporal inconsistencies exceeds conformance quality level.
|
Dataset fails. Percentage of temporal inconsistencies exceeds conformance quality level.
|
Bảng D.5 (tiếp theo)
Thành phần chất lượng dữ liệu
|
Ví dụ 7
|
Ví dụ 8
|
Ví dụ 9
|
DQ_Scope
|
Tất cả dữ liệu về giá đất trong tập dữ liệu
|
Tất cả dữ liệu về giá đất trong khu vực giới hạn bởi kinh độ +139 +140 và vĩ độ +36,0 +37,0
|
Tất cả dữ liệu về giá đất ở thành phố Tokyo, Nhật Bản
|
DQ _Element
|
4 – độ chính xác về thời gian
|
4 – độ chính xác về thời gian
|
4 – độ chính xác về thời gian
|
DQ_ Subelement
|
3 – giá trị thời gian
|
3 - giá trị thời gian
|
3 - giá trị thời gian
|
|
DQ _Measure
|
|
|
|
|
|
DQ_ MeasureDesc
|
Chấp nhận – không chấp nhận
|
Số lượng các đối tượng với giá trị thời gian
|
Tỷ lệ phần trăm các đối tượng với giá trị thời gian
|
|
|
DQ_ MeasureID
|
40301
|
40302
|
40303
|
|
|
DQ_ EvalMethod
|
|
|
|
|
|
|
DQ_EvalMethodType
|
1- Nội bộ
|
1- Nội bộ
|
1- Nội bộ
|
|
|
|
DQ_EvalMethodDesc
|
Kiểm tra dữ liệu giá đất để đảm bảo rằng nó đã được khảo sát năm 1995.
|
Kiểm tra dữ liệu giá đất để đảm bảo rằng nó đã được khảo sát năm 1995. Đếm những đối tượng không được khảo sát trong năm 1995.
|
Kiểm tra dữ liệu giá đất để đảm bảo rằng nó đã được khảo sát trong năm 1995. Đếm những đối tượng không được khảo sát trong năm 1995. Chia kết quả cho tổng số các đối tượng trong phạm vi chất lượng dữ liệu và nhân với 100.
|
|
|
DQ_QualityResult
|
|
|
|
|
|
|
DQ _ValueType
|
1 – Giá trị Boolean
|
2 – Giá trị số
|
4 – Giá trị phần trăm
|
|
|
|
DQ_ Value
|
False
|
5
|
5%
|
|
|
|
DQ _ValueUnit
|
N.A.
|
Giá trị thời gian
|
Phần trăm
|
|
DQ_ Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
|
DQ_ConformanceLevel
|
Không có đối tượng có thể có giá trị thời gian.
|
10 hoặc ít hơn các đối tượng có thể có giá trị thời gian.
|
Ít hơn 10 phần trăm các đối tượng có thể có giá trị thời gian.
|
Ví dụ về các tham số của tập dữ liệu
|
100 đối tượng thu thập năm 1995 trong tập dữ liệu; có 95 đối tượng được thu thập thực tế vào năm 1995, và 5 đối tượng được thu thập năm 1985.
|
100 đối tượng thu thập năm 1995 trong phạm vi chất lượng dữ liệu; có 95 đối tượng được thu thập thực tế vào năm 1995, và 5 đối tượng được thu thập năm 1985.
|
100 đối tượng thu thập năm 1995 trong phạm vi chất lượng dữ liệu; có 95 đối tượng được thu thập thực tế vào năm 1995, và 5 đối tượng được thu thập năm 1985.
|
Ví dụ về dự định kết quả chất lượng
|
Không chấp nhận tập dữ liệu. Có ít nhất một đối tượng có giá trị thời gian.
|
Chấp nhận tập dữ liệu. Có ít hơn 10 đối tượng có giá trị thời gian.
|
Chấp nhận tập dữ liệu. Có ít hơn 10% đối tượng có giá trị thời gian.
|
Table D.5 (continued)
Data quality component
|
Example 7
|
Example 8
|
Example 9
|
DQ_Scope
|
All land price data in the dataset
|
All land price data in the area bounded by longitudes +139 +140 and latitudes +36,0 +37,0
|
All land price data in the city of Tokyo, Japan
|
DQ_ Element
|
4 - temporal accuracy
|
4 - temporal accuracy
|
4 - temporal accuracy
|
DQ_ Subelement
|
3 - temporal validity
|
3 - temporal validity
|
3 - temporal validity
|
|
DQ _Measure
|
|
|
|
|
|
DQ_ MeasureDesc
|
Pass-fail
|
Number of items with temporal invalidity
|
Percentage of items with temporal invalidity
|
|
|
DQ _MeasureID
|
40301
|
40302
|
40303
|
|
|
DQ _EvalMethod
|
|
|
|
|
|
|
DQ_ EvalMethodType
|
1- Internal
|
1- Internal
|
1- Internal
|
|
|
|
DQ_EvalMethodDesc
|
Check land price data to assure that it was surveyed in 1995.
|
Check land price data to assure that it was surveyed in 1995. Count those that were not surveyed in 1995.
|
Check land price data to assure that it was surveyed in 1995. Count those that were not surveyed in 1995. Divide the result by the total number of items in data quality scope and multiply it by 100.
|
|
|
DQ _QualityResult
|
|
|
|
|
|
|
DQ _ValueType
|
1 - Boolean variable
|
2 - Number
|
4 - Percentage
|
|
|
|
DQ_ Value
|
False
|
5
|
5%
|
|
|
|
DQ_ ValueUnit
|
N.A.
|
Temporal invalidity
|
Percent
|
|
DQ _Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
|
DQ_ConformanceLevel
|
Zero items may have temporal invalidity.
|
10 or fewer items may have temporal invalidity.
|
Less than 10 percent of the items may have temporal invalidity.
|
Example dataset parameters
|
100 items with the collection date of 1995 in the dataset ; 95 were actually collected in 1995 ; 5 were actually collected in 1985
|
100 items with the collection date of 1995 in the data quality scope ; 95 were actually collected in 1995 ; 5 were actually collected in 1985
|
100 items with the collection date of 1995 in the data quality scope ; 95 were actually collected in 1995 ; 5 were actually collected in 1985
|
Example quality result meaning
|
Dataset fails. At least one item has temporal invalidity.
|
Dataset passes. Fewer than ten items had temporal invalidity.
|
Dataset passes. Less than 10 percent of the items had temporal invalidity.
|
D. 7 Các ví dụ về tiêu chuẩn để đánh giá độ chính xác chuyên đề chất lượng dữ liệu
Độ chính xác theo chuyên đề là mức độ chính xác của các thuộc tính định lượng và mức độ chính xác của các thuộc tính phi định lượng, phân loại các đối tượng và các mối quan hệ của chúng. Độ chính xác theo chuyên đề có các thành phần phụ sau đây:
- Phân loại chính xác: so sánh các lớp giao cho các đối tượng hoặc các thuộc tính của chúng với thực tế (mặt đất hoặc tập dữ liệu tham chiếu);
- Độ chính xác của thuộc tính phi định lượng: độ chính xác của các thuộc tính phi định lượng;
- Độ chính xác của thuộc tính định lượng: độ chính xác của các thuộc tính định lượng.
Bảng D.6 cung cấp một số ví dụ về độ chính xác theo chuyên đề cho các thành phần phụ.
|
D.7 Example of data quality thematic accuracy measures
Thematic accuracy is the accuracy of quantitative attributes and the correctness of non-quantitative attributes and of the classifications of features and their relationships. Thematic accuracy has the following sub-elements:
- classification correctness: comparison of the classes assigned to features or their attributes to a universe of discourse (ground truth or reference dataset);
- non-quantitative attribute correctness: correctness of non-quantitative attributes;
- quantitative attribute correctness: accuracy of quantitative attributes.
Table D.6 provides some examples of thematic accuracy for the sub-elements
|
Bảng D.6 — Các ví dụ về tiêu chuẩn để đánh giá chính xác chuyên đề chất lượng dữ liệu
Thành phần chất lượng dữ liệu
|
Ví dụ 1
|
Ví dụ 2
|
Ví dụ 3
|
DQ_Scope
|
Tất cả đối tượng được phân loại là A, B và C trong tập dữ liệu
|
Tất cả đối tượng được phân loại là A, B và C trong khu vực giới hạn bởi kinh độ +139 +140 và vĩ độ +36,0 +37,0
|
Tất cả đối tượng được phân loại là A, B và C ở Ả Rập.
|
DQ_ Element
|
5 - Độ chính xác chuyền đề
|
5 - Độ chính xác chuyền đề
|
5 - Độ chính xác chuyền đề
|
DQ_ Subelement
|
1 - độ chính xác phân loại
|
1 - độ chính xác phân loại
|
1 - độ chính xác phân loại
|
|
DQ _Measure
|
|
|
|
|
DQ _MeasureDesc
|
Chấp nhận-không chấp nhận
|
Phần trăm phân loại chính xác (PCC)
|
Ma trận tỷ lệ phần trăm phân loại sai
|
|
DQ _MeasureID
|
50101
|
50102
|
50103
|
DQ _EvalMethod
|
|
|
|
|
|
DQ_EvalMethodType
|
2 – bên ngoài
|
2 - bên ngoài
|
2 - bên ngoài
|
DQ_EvalMethodDesc
|
Đối với mỗi đối tượng trong tập dữ liệu, so sánh các lớp được chỉ định với các lớp trong thực tế.
|
Đối với mỗi đối tượng trong tập dữ liệu, so sánh các lớp được chỉ định với các lớp trong thực tế. Đếm các đối tượng được phân loại một cách chính xác. Chia kết quả cho tổng số các đối tượng trong phạm vi chất lượng dữ liệu và nhân với 100.
|
Đối với mỗi đối tượng trong tập dữ liệu, so sánh các lớp được chỉ định với các lớp trong thực tế. Tạo ra một ma trận của N (i, j) trong đó N (i, j) là số các đối tượng của lớp (i) được phân loại như lớp (j) trong tập dữ liệu. Chia N (i, j) cho tổng số các đối tượng của lớp (i) và nhân với 100.
|
DQ _QualityResult
|
|
|
|
|
DQ_ ValueType
|
1 – Giá trị Boolean
|
4 – Phần trăm
|
8 - Ma trận
|
|
DQ_Value
|
False
|
60%
|
|
Dataset class
|
True
class
i
|
|
A
|
B
|
C
|
%
|
A
|
70
|
20
|
10
|
100
|
B
|
20
|
40
|
40
|
100
|
C
|
20
|
20
|
60
|
100
|
%
|
100
|
100
|
100
|
|
|
|
DQ_ ValueUnit
|
N.A.
|
Phần trăm
|
Phần trăm
|
|
DQ _Date
|
2000-03-06
|
2000-03-06
|
2000-03-06
|
DQ_ConformanceLevel
|
Không có đối tượng nào bị phân loại sai
|
80 % các đối tượng được phân loại đúng
|
Không quy định
|
|
|
Dataset class
|
|
Dataset class
|
|
Dataset class
|
True
class
|
|
A
|
B
|
C
|
Count
|
True
class
|
|
A
|
B
|
C
|
Count
|
True
class
|
|
A
|
B
|
C
|
Count
|
A
|
7
|
2
|
1
|
10
|
A
|
7
|
2
|
1
|
10
|
A
|
7
|
2
|
1
|
10
|
B
|
1
|
2
|
2
|
5
|
B
|
1
|
2
|
2
|
5
|
B
|
1
|
2
|
2
|
5
|
C
|
1
|
1
|
3
|
5
|
C
|
1
|
1
|
3
|
5
|
C
|
1
|
1
|
3
|
5
|
Count
|
9
|
5
|
6
|
20
|
Count
|
9
|
5
|
6
|
20
|
Count
|
9
|
5
|
6
|
20
|
Ví dụ về dự định kết quả chất lượng
|
Không chấp nhận tập dữ liệu. Có 8 đối tượng bị phân loại sai.
|
Không chấp nhận tập dữ liệu. 40% các đối tượng bị phân loại sai.
|
Vì không có mức chất lượng phù hợp được quy định, ma trận phân loại sai được báo cáo.
|
Table D.6 — Examples of data quality thematic accuracy measures
Chia sẻ với bạn bè của bạn: |