E.4.2. Lấy mẫu xác suất so với phán xét
E.4.2.1. Sự khác nhau
Lấy mẫu xác suất áp dụng lý thuyết lấy mẫu và lựa chọn ngẫu nhiên các đối tượng mẫu. Cơ sở ban đầu của việc lấy mẫu xác suất là mỗi số trong toàn tập dữ liệu mà từ đó mẫu được lựa chọn theo xác suất biết trước. Khi lẫy mẫu xác suất được áp dụng, các tham khảo thống kê có thể được thực hiện về toàn tập dữ liệu mẫu. Lấy mẫu theo phán xét phác thảo sự lựa chọn có liên quan đến mẫu trên cơ sở hiểu biết của chuyên gia hay phán quyết chuyên môn.
|
E.4.2. Probabilistic versus judgemental sampling
E.4.2.1 Differences
Probabilistic sampling applies sampling theory and involves random selection of the sample items. The essential characteristic of probabilistic sampling is that each member of the population from which the sample is selected has a known probability of selection. When probabilistic sampling is used, statistical inferences may be made about the sampled population. Judgemental sample designs involve selection of samples based on expert knowledge or professional judgement.
|
E.4.2.2. Lấy mẫu ngẫu nhiên đơn giản
Lấy mẫu ngẫu nhiên đơn giản được dựa trên xác suất và quá trình lựa chọn mẫu về các mẫu ngẫu nhiên. Mẫu cụ thể (ví dụ: đối tượng, vị trí, thời gian) được lựa chọn sử dụng các số ngẫu nhiên để xác định các đối tượng và tất cả các lựa chọn có thể đều có khả năng. Lấy mẫu ngẫu nhiên đơn giản rất hữu ích khi toàn tập dữ liệu quan tâm là tương đối đồng nhất trong các đặc tính được chọn lấy mẫu, có nghĩa là không có các nhóm và mẫu chính. Phương pháp này có thể không trình bày toàn bộ một vùng mà nó có thể lựa chọn mẫu chỉ từ một phần của vùng đó.
|
E.4.2.2 Simple random sampling
Simple random sampling is probability-based and involves selection of samples randomly. The particular sample (e.g. features, location, time) is selected using random numbers to identify the items and all possible selections are equally likely. Simple random sampling is useful when the population of interest is relatively homogeneous in the characteristics being sampled, i.e. no major patterns and clusters. This method may not result in representative coverage of an area, i.e., it is possible that the sample selected will be only from a part of the area.
|
E.4.2.3. Lấy mẫu ngẫu nhiên phân tầng
Lấy mẫu theo phân tầng yêu cầu toàn tập dữ liệu được chia thành tầng không phủ nhau hay thành toàn tập dữ liệu phụ để đồng nhất hơn giữa các đối tượng mẫu trong cùng tầng hơn là so với các đối tượng mẫu ở các tầng khác nhau. Thủ thuật lấy mẫu này có tiềm năng cho độ chính xác cao hơn trong ước tính số trung bình và sai số so với thủ thuật lấy mẫu không phân tầng.
|
E.4.2.3 Stratified random sampling
Stratified sampling requires the population to be separated into non-overlapping strata or subpopulations that are more homogeneous among sample items in the same strata than among sample items in different strata. This sampling strategy has the potential for greater precision in estimates of mean and variance than that of a nonstratified strategy for the same population.
|
E.4.2.4. Lấy mẫu bán ngẫu nhiên
Lấy mẫu bán ngẫu nhiên hay lấy mẫu hệ thống áp dụng lựa chọn ngẫu nhiên của các đối tượng mẫu ban đầu. (ví dụ. vị trí, thời gian, đối tượng) và các qui định lựa chọn đối với tất cả các mẫu còn lại. Một ví dụ về lấy mẫu bán ngẫu nhiên hay lấy mẫu hệ thống là lấy mẫu lưới với vị trí lưới ban đầu được lấy ngẫu nhiên và từ mẫu này lấy theo khoảng cách đều trên toàn bộ vùng. Lấy mẫu lưới hệ thống được sử dụng để tìm kiếm các nhóm và phỏng đoán sai số, một trong các nhóm đó hay các tham số khác và rất hữu ích cho việc đánh giá xu hướng không gian hoặc các mẫu. Phương pháp này cho ta cách lấy mẫu thực tế và dễ dàng để đảm bảo cho toàn bộ một vùng.
|
E.4.2.4 Semi-random sampling
Semi-random or systematic sampling applies random selection of the initial sample items (e.g. location, time, feature) and rules for selection for all remaining items. An example of semi-random or systematic sampling is grid sampling where the initial position of a grid is randomly determined and samples are taken at regularly spaced intervals (grid cells) over space. Systematic grid sampling is used to search for clusters and to infer means, percentiles, or other parameters and is useful for estimating spatial trends or patterns. This method provides a practical and easy way to ensure coverage of an area.
|
E.4.3. Lấy mẫu theo chỉ dẫn đối tượng so với lấy mẫu theo chỉ dẫn vùng
E.4.3.1. Lấy mẫu theo chỉ dẫn đối tượng (lấy mẫu phi không gian)
Chiến lược lấy mẫu theo chỉ dẫn đối tượng lựa chọn các đối tượng mẫu trên cơ sở các thuộc tính phi không gian của đối tượng và không dựa vào vị trí không gian. Mẫu trong phạm vi chất lượng dữ liệu có thể chọn ngẫu nhiên với giả thuyết rằng các tính chất lấy mẫu này đồng nhất đối với toàn bộ phạm vi chất lượng dữ liệu. Trong một số trường hợp lấy mẫu ngẫu nhiên đơn giản có thể không tạo ra mẫu thỏa mãn vì tính đồng nhất có thể chỉ tìm thấy cho các tập con và đòi hỏi các mẫu có thể được phân phối đồng nhất, ie. Phần lớn mẫu và nhóm mẫu xuất hiện trong các đặc tính được chọn làm mẫu. Trong trường hợp này, lấy mẫu theo tầng hay lấy mẫu bán ngẫu nhiên có thể cho kết quả tốt hơn.
CHÚ THÍCH: Nếu phương pháp lấy mẫu được xác định là lựa chọn các đối tượng ngẫu nhiên thì có rủi ro về sự xuất hiện về mẫu tập trung nhiều vào một vùng nhỏ (điều này có thể không được chấp nhận).
Lấy mẫu bán ngẫu nhiên có thể được sử dụng để đảm bảo xác định các tiêu chuẩn khác nhau về kích thước mẫu hay/và vị trí, để đáp ứng hạn chế bổ sung cho các mẫu hay giảm chi phí cho các thủ tục kiểm tra.
VÍ DỤ: Công ty điện lực cần đánh giá sự chính xác của các thuộc tính được khảo sát đối với các đối tượng về các kiểu khác nhau. Hai phương pháp được xem xét là: Lựa chọn ngẫu nhiên và lựa chọn bán ngẫu nhiên (lựa chọn ngẫu nhiên các đối tượng của một kiểu và sau đó lựa chọn đối tượng của các kiểu khác nhau trong vùng lân cận của vật thể thứ nhất tới khi các mẫu cho từng kiểu được hoàn thành) dẫn đến chi phí kiểm tra thực địa giảm.
|
E.4.3 Feature-guided versus area-guided sampling
E.4.3.1 Feature-guided sampling (non spatial sampling)
A feature-guided sampling strategy selects sample items based on the non-spatial attributes of the features and not on their spatial location. A sample within a data quality scope can be selected randomly, assuming homogeneous production characteristics for the entire data quality scope. In some cases, simple random sampling may not produce a satisfactory sample, because homogeneity may be found only for subsets and homogeneous distribution of samples may be required, i.e., major patterns or clusters occur in the characteristics being sampled. In that case, a stratified or semi-random sampling may give better results.
NOTE If the sampling method is defined by selecting features randomly, then there is the risk of the occurrence of a sample being concentrated in a small area (which may not be acceptable).
Semi-random sampling may be used to ensure the verification of different criteria on the sample size and/or location, to satisfy supplementary constraints for the samples or to reduce costs of the inspection process.
EXAMPLE A power company needs to evaluate the correctness of the attributes surveyed for features of different types. Two methods were considered: a random selection and a semi-random selection (selecting randomly the features of one type and then collecting the objects of different types in the neighbourhood of the first one until the samples for each type become fulfilled) leading to a reduced field inspection cost.
|
E.4.3.2 Lấy mẫu theo chỉ dẫn vùng (lấy mẫu không gian)
Với chiến lược lấy mẫu theo chỉ dẫn vùng, lựa chọn các đơn vị lấy mẫu dựa trên việc xem xét về mặt không gian. Các đơn vị lấy mẫu có thể tồn tại trong vùng địa lý (ví dụ. vùng hành chính hoặc thống kê) hay một vài phần khác trong thực tế mà việc kiểm tra được thực hiện. Kiểu lấy mẫu này có thể được sử dụng như là bước đầu tiên lấy mẫu sau đó là lấy mẫu theo chỉ dẫn đối tượng trong từng vùng nhỏ.
VÍ DỤ: chọn ngẫu nhiên các vùng lưới UTM 1 x 1 km với mục đích đánh giá các thuộc tính của đối tượng trong vùng.
Hình E.3 minh họa kết quả về xác định các vùng được lựa chọn để kiểm tra, thu nhận được bằng cách tạo ngẫu nhiên các tọa độ điểm trung tâm của các hình chữ nhật có diện tích bằng nhau (hạn chế không phủ trùm nhau).
|
4.3.2 Area-guided sampling (spatial sampling)
In an area-guided sampling strategy, selection of sampling units is based on spatial considerations. The sampling units may be existing geographic areas (e.g. political or statistical areas) or some other partitioning of the universe of discourse for which the inspection is conducted. This type of sampling may be used as a first stage of sampling, followed by a feature-guided sampling within each subarea.
EXEXAMPLE Random selection of UTM 1x1 km grid areas in order to evaluate the attributes of the objects contained in that area.
Figure E.3 illustrates the result of the definition of areas to be submitted for inspection, obtained by random generation of centre point coordinates of squares of equal area (constrained to be non-overlapping).
|