Khóa luận tốt nghiệp Bùi Thị Hương Giang LỜi cảM ƠN


Khái quát về siêu dữ liệu Metadata và Dublin Core



tải về 337.17 Kb.
trang3/9
Chuyển đổi dữ liệu17.08.2016
Kích337.17 Kb.
#21033
1   2   3   4   5   6   7   8   9

1.1.2. Khái quát về siêu dữ liệu Metadata và Dublin Core

1.1.2.1. Khái quát về siêu dữ liệu Metadata


Khái niệm: Là dữ liệu về dữ liệu (data about data) hay dữ liệu có cấu trúc về dữ liệu, bao gồm những yếu tố mô tả về đối tượng thông tin (sách, trang web, bản nhạc...)

Có thể định nghĩa: “Siêu dữ liệu là dữ liệu đi kèm với đối tượng thông tin và nó cho phép những người sử dụng tiềm năng có thể biết trước sự tồn tại cũng như đặc điểm của đối tượng thông tin này” (Dempsey và Heery, 1997).



Mục đích của siêu dữ liệu:

- Hỗ trợ phát triển nguồn tin

- Hỗ trợ người dùng tin, đánh giá thông tin mà không phải truy cập trực tiếp đến thông tin

- Giúp kiểm tra sự tồn tại của đối tượng thông tin

- Mô tả ngôn ngữ, vị trí... của thông tin

Một biểu ghi trong Metadata (siêu dữ liệu) bao gồm một hệ thống các thành tố hay còn gọi là các yếu tố cần thiết để mô tả nguồn tin.



Phân loại siêu dữ liệu

- Trong thư viện truyền thống, siêu dữ liệu chủ yếu là các dạng mô tả hình thức và nội dung của tài liệu có trong kho thư viện, chính là các phiếu mô tả trong hộp phích, trong các cơ sở dữ liệu thư mục - nằm tách rời với đối tượng thông tin

- Trong thư viện điện tử, siêu dữ liệu đã phát triển ở mức độ cao hơn với khái niệm rộng hơn, phát triển thành 5 loại siêu dữ liệu

1. Siêu dữ liệu hành chính (Administrative)

2. Siêu dữ liệu mô tả (Desriptive)

3. Siêu dữ liệu bảo quản (Preservation)

4. Siêu dữ liệu sử dụng (Use)

5. Siêu dữ liệu kỹ thuật (Technical)



Các loại CSDL

Định nghĩa

Ví dụ

1. CSDL hành chính

Được dùng để quản lý và quản trị các tài nguyên thông tin

- Thông tin bổ sung

- Bản quyền và thông tin tái bản

- Tài liệu về yêu cầu truy cập hợp pháp

- Thông tin định vị

- Các tiêu trí số hóa

- Thông tin kiểm tra của hệ thống quản lý



2. CSDL mô tả

Được dùng để mô tả hay nhận dạng các tài nguyên thông tin

- Các biểu ghi thư mục

- Các hỗ trợ tìm kiếm

- Định chỉ số chuyên biệt

- Chú giải của người sử dụng



3. CSDL bảo quản

Các thông tin liên quan đến quản lý việc bảo quản các tài nguyên thông tin

- Các tài liệu về tình trạng, điều kiện vật lý của tài nguyên thông tin

- Các tài liệu về công tác bảo quản các phiên bản thông tin dưới dạng vật lý và số

VD: làm mới dữ liệu; Di trú dữ liệu


4. CSDL Kỹ thuật

Các thông tin liên quan đến cách thức hoạt động của hệ thống cũng như siêu dữ liệu

- Thông tin về phần cứng và phần mềm

- Thông tin số hóa

VD: khổ mẫu; tỷ lệ nén; độ nén; quy trình phân bổ thông tin.

- Thông tin về thời gian phản hồi của hệ thống

- Dữ liệu về tính xác thực


5. CSDL Sử dụng

Các thông tin liên quan đến mức độ và loại hình sử dựng tài nguyên thông tin

- Các biểu ghi trình bày

- Các thông tin liên quan đến người sử dụng và việc sử dụng

- Thông tin về tái sử dụng nội dung và các phiên bản đa phương tiện


Tài liệu hướng dẫn sử dụng Dublin Core


1.1.2.2. Chuẩn biên mục Dublin Core



Lịch sử ra đời

Sở dĩ được đặt tên là chuẩn biên mục Dublin Core là vì tại hội thảo đầu tiên bàn về thiết kế siêu dữ liệu tại Dublin bang Ohio, Hoa Kỳ năm 1992 nhằm tăng cường khả năng phát hiện nguồn tin trên www, đặc biệt đối tượng thông tin dạng mã hóa HTML.

Chuẩn Dublin Core là chuẩn dùng để mô tả dữ liệu trong các Metadata (siêu dữ liệu) với MARC 21, chuẩn Dublin Core được thiết kế đơn giản hơn, với 15 yếu tố mô tả (15 metadata elements) nhằm không những mô tả loại hình đối tượng thông tin trong thư viện mà cả trong viện bảo tàng, triển lãm nghệ thuật, tin học, mã hóa văn bản và các lĩnh vực khác có liên quan,... Ngôn ngữ ban đầu là Tiếng Anh.

Tháng 9/2001 chuẩn Dublin Core được công nhận là tiêu chuẩn của Mỹ có mã số ANSI/NISO Z39.50-2001



Đặc điểm của Dublin Core

- Đơn giản trong tạo lập và bảo trì: được thiết kế nhằm phục vụ với người không chuyên, dễ sử dụng và rẻ nhưng hiệu quả mang lại lớn.

- Ngữ nghĩa thông dụng, dễ hiểu và phổ biến: Khắc phục những khó khăn trong việc hiển thị các thuật ngữ

VD: Yếu tố “Tác giả” (Creator) được gán cho người tạo lập, nhà soạn nhạc, đạo diễn trong vai trò là tác giả chính. Điều này giúp cho khi người tìm tin muốn tìm thông tin theo một tác giả cụ thể nào đó, nếu đồng ý chọn yếu tố “Tác giả - Creator” là yếu tố mô tả hợp lý. Với diện bao quát rộng như vậy, nếu càng khái quát, tập hợp yếu tố mô tả này sẽ tăng cường được sự có mặt và truy cập của mọi loại hình nguồn tin, cả theo quy tắc và bất quy tắc.

- Phạm vi quốc tế: Phiên bản đầu tiên bằng Tiếng Anh (11/1999), đã có phiên bản của 20 thứ tiếng khác như: Phần Lan, Nauy, Thái Lan, Nhật Bản, Pháp, Đức, Bồ Đào Nha, Hy Lạp, Indonesia, Tây Ban Nha. Tổ chức W3C (World Wide Web Cosontium) phát triển chuẩn Dublin Core trên nền tảng kết hợp đa ngôn ngữ, sử dụng công nghệ (RDF: Resource Descreption Frame Work): Khung mô tả tài nguyên thông tin, phục vụ cho môi trường tài nguyên thông tin điện tử mang tính chất đa văn hóa và đa ngôn ngữ.

- Khả năng phát triển rộng: Với cơ chế mở, chuẩn Dublin Core có thể được mở rộng bởi các chuyên gia bằng việc gắn kết thêm các yếu tố mở rộng. Khả năng này còn được thực hiện một cách đơn giản thông qua việc kết nối nhiều CSDL khác nhau thông qua mạng Internet



Thuộc tính của Dublin Core

Mỗi một phần tử (yếu tố mô tả) của Dublin Core được xác định bởi 10 thuộc tính theo tiêu chuẩn mô tả yếu tố dữ liệu điện tử ISO/IEC 11179 như sau:

- Name (Tên): Tên xác định thống nhất gắn cho yếu tố mô tả

- Identifier (Định danh): Tên xác định thống nhất gắn cho yếu tố mô tả

- Version (Phiên bản): Phiên bản của yếu tố mô tả

- Registration Authority (Thẩm quyền đăng ký): Thực thể có thẩm quyền đăng ký các phần tử mô tả

- Language (Ngôn ngữ): Ngôn ngữ yếu tố mô tả được sử dụng

- Definition (Định nghĩa): Trình bày rõ ràng khái niệm và bản chất của phần tử

- Obligation (Bắt buộc): Chỉ ra khả năng có hay không thường xuyên xuất hiện phần tử.

- Datatype (Kiểu dữ kiệu): Chỉ ra loại dữ liệu trình bày giá trị của phần tử

- Maximum Occurrence (Tần xuất xuất hiện tối đa): Chỉ ra những tần xuất lặp lại của phần tử

- Comment (Chú thích): Lưu ý về ứng dụng của phần tử



Ý nghĩa của Dublin Core trong thư viện số

- Là một phương pháp mô tả nguồn thông tin, đặc biệt là nguồn tin điện tử một cách hiệu quả. Dublin Core càng đặc biệt phát huy tác dụng khi được sử dụng để mô tả tài liệu điện tử vốn khó xác định được loại hình và nội dung các yếu tố cần thể hiện

- Thay thế cho các dạng thức trình bày thông tin trước đây như MARC do sự đơn giản trong cấu trúc mà người sử dụng có thể thiết kế theo yêu cầu của riêng mình

- Cung cấp cho người sử dụng một phương án tiếp cận thông dụng thông qua các giao diện quen thuộc như web

- Tạo cho người cán bộ thư viện sự thuận tiện trong công tác khi không còn phải gò bó trong các trường, các yếu tố vốn dĩ đã rất đa dạng và phức tạp.

Các yếu tố của Dublin Core

Dublin Core gồm có 15 yếu tố, trong từng trường hợp cụ thể các yếu tố của chuẩn siêu dữ liệu Dublin Core đều không nhất thiết bắt buộc phải có đầy đủ và có thể lặp.



Phân loại các yếu tố:

NỘI DUNG

SỞ HỮU TRÍ TUỆ

THUYẾT MINH

Nhan đề (Title)

Tác giả

(Creator)



Ngày tháng

(Date)


Chủ đề (Subject)

Tác giả phụ (Contributor)

Mô tả vật lý (Description)

Mô tả (Description)

Xuất bản (Publisher)

Định danh

(Identifier)



Loại hình (Type)

Bản quyền

(Right)


Ngôn ngữ

(Language)



Nguồn (Source)







Liên kết (Relation)







Nơi chứa (Coverage)






- Các yếu tố cơ bản

Các yếu tố cơ bản của Dublin Core đều mang thuộc tính lựa chọn có thể lặp. Mỗi yếu tố cũng có một giới hạn như hạn định, thuộc tính nhằm diễn giải chính xác ý nghĩa của các yếu tố.

Các yếu tố

Trường con

Ý nghĩa sử dụng

Ví dụ

1. Title




Tên của nguồn thông tin thường do tác giả hoặc Nxb đặt cho tài liệu

Báo cáo kết quả công tác Quý 1/2007

2. Creator




Người hoặc cơ quan chịu trách nhiệm chính về nội dung trí tuệ của nguồn tin

Đoàn Văn Cương

3. Subject




Chủ đề của nguồn thông tin và được thể hiện bằng từ vựng có kiểm soát gồm tiêu đề đề mục, số phân loại,...

Công tác Ban quản lý dự án

4. Description




Phần thể hiện nội dung của nguồn thông tin bao gồm cả tóm tắt của tư liệu văn hóa gốc hoặc nội dung của tư liệu nghe nhìn




5. Publisher




Cơ quan tổ chức chịu trách nhiệm tạo lập, xuất bản hay ban hành, công bố tư liệu

Trung tâm Khoa học và Công nghệ Quốc gia

6. Contributor




Cá nhân hay tổ chức có những đóng góp về mặt trí tuệ cho tư liệu nhưng không phải là tác giả chính







Reviewer

Người nhập văn bản

Người sửa văn bản



Phạm Quỳnh Trang

Đào Quốc Hùng



7. Date




Ngày tháng có liên quan đến việc tạo lập, xuất bản hay công bố tư liệu

- Ngày nhập văn bản


25/05/2008






Published

Updated



- Ngày ban hành văn bản

- Ngày cập nhật văn bản



20/12/2007

8. Type




Kiểu văn bản, hình thức chứa nội dung tư liệu

Báo cáo

9. Format




Định dạng vật lý và kích thước của tư liệu như kích cỡ, thời lượng,… Định dạng cũng được dùng để chỉ rõ phần mềm và phần cứng cần thiết để sử dụng tư liệu







Size

Kích thước toàn văn

254 KB




Mime

Định dạng (doc, pdf, gib,…)

Text/pdf

10. Identifier




Là một dãy kí tự hoặc số nhằm thể hiện tính đơn nhất của tư liệu

URLs và URNs, DOI, ISBD, ISSN

11. Source




Nguồn gốc mà tư liệu được tạo thành (số hiệu của văn bản), yếu tố này có thể bao gồm siêu dữ liệu về nguồn thông tin thứ hai nhằm khai thác tư liệu hiện hành

24/BQLDA

KHCNQG-BC



12. Language




Ngôn ngữ của nội dung tư liệu

‘Vie’: Việt Nam

‘En’: Tiếng Anh

‘Fr’ : Tiếng Pháp


13. Relation




Một định danh cho nguồn thứ hai và những mối quan hệ của nó với tư liệu hiện hành. Yếu tố này thể hiện những kết nối giữa những nguồn dữ liệu có liên quan

UBKH Sở Khoa học Công nghệ

14.Coverage




Những đặc tính về không gian (Tên định danh hoặc tương đương với địa lý) và/hoặc thời gian của tư liệu (ngày, tháng hoặc khoảng thời gian), quy mô, phạm vi quyền hạn của nguồn dữ liệu

Toanvan.pdf

15. Right




Thông tin về quyền lưu trữ và hoàn trả nguồn tài nguyên

Văn bản đã được ký nhận, có thể ban hành




Read

(Nhóm) có quyền đọc

Tất cả mọi người




Write

(Nhóm) có quyền sửa

Nhân viên




Delete

(Nhóm) có quyền xoa

Người quản lý

- Các yếu tố mở rộng

Thực tế sử dụng Dublin Core cho thấy mỗi yếu tố cơ bản còn gộp chứa trong nó một vài thành tố phụ nhằm diễn đạt chi tiết hơn nội dung chính yếu tố đó. Các thành tố phụ được coi là yếu tố mở rộng và được thể hiện thông qua những khung mã hóa cụ thể.

Ví dụ: Khi thể hiện nội dung một tài liệu, người ta cung cấp một số cách tiếp cận như qua ký hiệu phân loại, tiêu đề đề mục, từ khóa.




YẾU TỐ

YẾU TỐ MỞ RỘNG

KHUNG MÃ HÓA

Nhan đề

Nhan đề thay thế




Tác giả







Chủ đề




LCSH, MeSH, DDC, UDC, LCC

Mô tả

Mục lục (Table of Contents)

Tóm tắt (Abstract)






Nhà xuất bản







Tác giả phụ







Thời gian

Tạo lập (Created)

Có giá trị (Valid)

Có hiệu lực (Available)

Xuất bản (Issued)

Hiệu đính (Modified)


Bảng thời kỳ của DDC

Định dạng ngày tháng của W3C



Loại tài liệu




Thuật ngữ về loại hình của Dublin Core

Khổ mẫu

Kích thước và thời lượng (Extent)

Vật mang tin (Medium)



IMT loại tư liệu

Định danh




URI Uniform Resource Identifier

Nguồn




URI Uniform Resource Identifier

Ngôn ngữ




ISO 639-2

RFC 1766


Liên kết







Bao quát







Quyền








tải về 337.17 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương