G.1. Giới thiệu
Phụ lục này cung cấp ví dụ về đo lường và báo cáo về độ chính xác và tính đầy đủ chuyên đề.
Mục tiêu của ví dụ này là:
- trình bày thủ tục đánh giá chất lượng có thể được áp dụng để đo lường và báo cáo kết quả dữ liệu định lượng;
- cung cấp một ví dụ về đo lường và báo cáo về tính đầy đủ và chính xác chuyên đề;
- trình bày cách sử dụng ma trận phân lớp sai như là công cụ để đánh giá chất lượng dữ liệu.
Ví dụ bao gồm các kết quả đánh giá chất lượng dữ liệu có thể được báo cáo trong siêu dữ liệu và cũng như trong báo cáo đánh giá chất lượng.
|
G.1 Introduction
This annex provides an example of measurement and reporting of thematic accuracy and completeness. The objective of this example is as follows:
demonstrate how quality evaluation procedures can be applied to measure and report quantitative data quality results;
provide an example of measurement and reporting of thematic accuracy and completeness;
demonstrate the use of misclassification matrices as a tool for data quality evaluation.
The example includes how data quality results may be reported in metadata and as a quality evaluation report.
|
G.2 Mô tả tập dữ liệu
‘Thế giới thực’ được trình bày trong hình G.2. Thông số kỹ thuật sản phẩm đưa ra trong Bảng G.1, mô tả mô hình thế giới thực. Xác định thông số kỹ thuật các đối tượng, thuộc tính và mối quan hệ này được coi là quan trọng trong tập dữ liệu.
Với mục đích trình bày tập dữ liệucách sản xuất ra tập dữ liệu, mô hình thế giới thực, nghĩa là tập dữ liệu lý tưởng đáp ứng các yêu cầu kỹ thuật sản phẩm, được miêu tả trong Hình G.2. Trong tất cả các hình vẽ
- Phạm vi trình bày chữ và số bằng các ký hiệu cây, độ cao của cây là mét.
Chữ số trong biểu tượng của ngôi nhà là số người sở hữu ngôi nhà.
Tên của người sở hữu được ghi chú bên cạnh ký hiệu nhà
Quan hệ giữa ba hình vẽ là
Hình G.2 đặc trưng thế giới thực, thông thường chứa nhiều đối tượng hơn so với tập dữ liệu;
Hình G.3. trình bày “thế giới thực” được đưa ra theo các thông số kỹ thuật sản phẩm; Đây là một phần thế giới thực có trong tập dữ liệu, nếu tập dữ liệu được sản xuất đầy đủ và chính xác.
Hình G.4. trình bày tập dữ liệu sản xuất
|
G.2 Dataset description
The ‘real world’ is represented by Figure G.1. The product specification, given in Table G.1, describes the universe of discourse. The specification defines those features, attributes, and relationships occurring in reality that are considered important and should be in the dataset.
For the purpose of demonstrating how the dataset may have been produced, the universe of discourse, i.e., the ideal dataset that meets the product specification, is graphically depicted in Figure G.2. In all the figures
the digit or letter representing domain of digits under the symbol of a tree is the height of the tree in metres.
the digit in the symbol of a house is the number of occupants of the house.
the name of the occupants of a house is noted beside the symbol of the house.
The relationship between the three figures is,
Figure G.2 represents the ‘real world’, which generally contains more features than will be contained in the dataset,
Figure G.3 represents the ‘universe of discourse’ given by the product specification. It is that part of the ‘real world’ that is to be included in the dataset, if the dataset is completely and accurately produced,
Figure G.4 represents the dataset as produced.
|