CHƯƠNG 1. ĐẠI CƯƠNG VỀ CÁC HỆ CƠ SỞ DỮ LIỆU
Trong nhiều năm gần đây, thuật ngữ Cơ sở dữ liệu - Database đã trở nên quen
thuộc trong nhiều lĩnh vực. Các ứng dụng tin học vào quản lý ngày càng nhiều và đa
dạng, hầu hết các lĩnh vực kinh tế, xã hội… đều đã ứng dụng các thành tựu mới của tin
học vào phục vụ công tác chuyên môn của mình. Chính vì lẽ đó mà ngày càng nhiều
người quan tâm đến thiết kế, xây dựng và ứng dụng cơ sở dữ liệu (CSDL). Nội dung
chương 1 giới thiệu tổng quan về lý thuyết cơ sở dữ liệu, kiến trúc của một hệ quản trị
CSDL, phân loại các hệ CSDL.
1.1.
Tổng quan về lý thuyết cơ sở dữ liệu
Để hiểu được các cơ sở kỹ thuật của cơ sở dữ liệu chúng ta phải bắt đầu từ các khái
niệm lý thuyết nền tảng của cơ sở dữ liệu truyền thống.
1.1.1. Giới thiệu chung
Ngày nay sự thành công của một tổ chức phụ thuộc vào khả năng thu thập dữ liệu
chính xác và kịp thời về các hoạt động của mình, để quản lý dữ liệu một cách hiệu quả
và sử dụng nó để phân tích, định hướng các hoạt động của mình. Các cụm từ như
“Information superhighway” đã trở nên phổ biến và việc xử lý thông tin là một ngành
công nghiệp trị giá hàng tỷ đô la đang phát triển nhanh chóng.
Lượng thông tin có sẵn cho chúng ta đang bùng nổ theo đúng nghĩa đen và giá trị
của dữ liệu như một tài sản của tổ chức được công nhận rộng rãi. Tuy nhiên, nếu không
có khả năng quản lý lượng dữ liệu khổng lồ này và nhanh chóng tìm thấy thông tin liên
quan đến một truy vấn nhất định, khi lượng thông tin tăng lên, nó có xu hướng trở thành
một thứ gây mất tập trung và trách nhiệm pháp lý hơn là một tài sản. Nghịch lý này thúc
đẩy nhu cầu về các hệ thống quản lý dữ liệu ngày càng mạnh mẽ và linh hoạt.
Để tận dụng tối đa bộ dữ liệu lớn và phức tạp, người dùng phải có các công cụ giúp
đơn giản hóa các tác vụ quản lý dữ liệu và trích xuất thông tin hữu ích kịp thời. Nếu
không, dữ liệu có thể trở thành một khoản nợ phải trả, với chi phí mua và quản lý nó
vượt xa giá trị thu được từ nó.
Từ những ngày đầu tiên – đi kèm với sự phát triển của máy tính, lưu trữ và thao
tác dữ liệu đã là một trọng tâm chính của ứng dụng.
2
Hệ thống DBMS đa năng đầu tiên được thiết kế bởi Charles Bachman tại General
Electric vào đầu những năm 1960 và được gọi là Kho dữ liệu tích hợp. Nó hình thành
nền tảng cho mô hình dữ liệu mạng, được tiêu chuẩn hóa bởi Hội nghị về Ngôn ngữ Hệ
thống Dữ liệu (CODASYL) và ảnh hưởng mạnh mẽ đến các hệ thống cơ sở dữ liệu
trong suốt những năm 1960. Bachman là người đầu tiên nhận được giải thưởng ACM’s
Turing (giải thưởng khoa học máy tính tương đương với giải Nobel) trong lĩnh vực cơ
sở dữ liệu vào năm 1973.
Vào cuối những năm 1960, IBM đã phát triển Hệ thống Quản lý Thông tin (IMS)
DBMS, thậm chí nó vẫn còn được tối ưu đến ngày nay trong nhiều hệ thống lớn. IMS
đã hình thành cơ sở cho một khung biểu diễn dữ liệu thay thế được gọi là mô hình dữ
liệu phân cấp. Hệ thống SABER để đặt chỗ của hãng hàng không được American
Airlines và IBM cùng phát triển vào khoảng thời gian đó và nó cho phép nhiều người
truy cập vào cùng một dữ liệu thông qua một mạng máy tính. Điều thú vị là ngày nay
cùng một hệ thống SABER được sử dụng để cung cấp cho các dịch vụ du lịch dựa trên
Web phổ biến như Travelocity.
Năm 1970, Edgar Codd, tại Phòng thí nghiệm nghiên cứu San Jose của IBM, đề
xuất một khung biểu diễn dữ liệu mới được gọi là mô hình dữ liệu quan hệ. Điều này
đã được chứng minh là một bước ngoặt trong sự phát triển của các hệ thống cơ sở dữ
liệu: nó đã thúc đẩy sự phát triển nhanh chóng của một số DBMS dựa trên mô hình quan
hệ, cùng với một khối lượng lớn các kết quả lý thuyết đã đặt lĩnh vực này trên một nền
tảng vững chắc. Codd đã giành được giải thưởng Turing năm 1981 cho tác phẩm nổi
tiếng của mình. Các hệ thống cơ sở dữ liệu đã phát triển thành một lĩnh vực học thuật
và sự phổ biến của các DBMS quan hệ đã thay đổi bối cảnh thương mại. Lợi ích của
chúng đã được công nhận rộng rãi và việc sử dụng DBMS để quản lý dữ liệu công ty
đã trở thành chuẩn hóa.
Trong những năm 1980, mô hình quan hệ đã củng cố vị trí của nó như là mô hình
DBMS thống trị và các hệ thống cơ sở dữ liệu tiếp tục được sử dụng rộng rãi. Ngôn ngữ
truy vấn SQL cho cơ sở dữ liệu quan hệ, được phát triển như một phần của dự án Hệ
thống R của IBM, hiện là ngôn ngữ truy vấn tiêu chuẩn. SQL được tiêu chuẩn hóa vào
cuối những năm 1980 và tiêu chuẩn hiện tại, SQL-92, đã được Viện Tiêu chuẩn Quốc
gia Hoa Kỳ (ANSI) và Tổ chức Tiêu chuẩn Quốc tế (ISO) thông qua. Có thể nhận định
rằng, hình thức lập trình đồng thời được sử dụng rộng rãi nhất là thực hiện đồng thời
các chương trình cơ sở dữ liệu (được gọi là giao dịch).
3
Người dùng viết các chương trình như thể chúng được chạy bởi chính họ và DBMS
sẽ có trách nhiệm vận hành chúng hoạt động đồng thời. James Gray đã giành được giải
thưởng Turing năm 1999 cho những đóng góp của mình trong lĩnh vực quản lý giao
dịch trong DBMS.
Vào cuối những năm 1980 và những năm 1990, lĩnh vực cơ sở dữ liệu đã đạt được
nhiều thành tựu tiến bộ mới. Nghiên cứu quan trọng đã được thực hiện nhằm mục đích
phát triển các ngôn ngữ truy vấn mạnh mẽ hơn và các mô hình dữ liệu phong phú hơn,
đồng thời nhấn mạnh vào việc hỗ trợ phân tích dữ liệu phức tạp từ tất cả các bộ phận
của doanh nghiệp. Một số nhà cung cấp (ví dụ: DB2 của IBM, Oracle 8, Informix UDS)
đã mở rộng hệ thống của họ với khả năng lưu trữ các kiểu dữ liệu mới như hình ảnh và
văn bản, cũng như khả năng yêu cầu các truy vấn phức tạp hơn. Các hệ thống chuyên
biệt đã được phát triển bởi nhiều nhà cung cấp để tạo kho dữ liệu, hợp nhất dữ liệu từ
một số cơ sở dữ liệu và để thực hiện phân tích cụ thể hóa.
Một hiện tượng thú vị là sự xuất hiện của một số gói lập kế hoạch tài nguyên doanh
nghiệp (ERP) và lập kế hoạch tài nguyên quản lý (MRP), bổ sung đáng kể các tính năng
hướng ứng dụng lên trên DBMS. Các gói được sử dụng rộng rãi bao gồm các hệ thống
của Baan, Oracle, PeopleSoft, SAP và Siebel. Các gói này xác định một tập hợp các
nhiệm vụ phổ biến (ví dụ: quản lý hàng tồn kho, lập kế hoạch nguồn nhân lực, phân tích
tài chính) mà một số lượng lớn các tổ chức gặp phải và cung cấp một lớp ứng dụng
chung để thực hiện các nhiệm vụ này. Dữ liệu được lưu trữ trong DBMS quan hệ và lớp
ứng dụng có thể được tùy chỉnh cho các công ty khác nhau, dẫn đến chi phí tổng thể
thấp hơn cho các công ty so với chi phí xây dựng ban đầu.
Đáng chú ý, DBMSs đã bước vào kỷ nguyên Internet. Trong khi thế hệ đầu tiên
của các trang Web lưu trữ riêng dữ liệu của chúng trong các tệp hệ điều hành, việc sử
dụng DBMS để lưu trữ dữ liệu được truy cập thông qua trình duyệt Web đang trở nên
phổ biến. Các truy vấn được tạo thông qua các biểu mẫu có thể truy cập được trên Web
và các câu trả lời được định dạng bằng ngôn ngữ đánh dấu như HTML, để có thể dễ
dàng hiển thị trong trình duyệt. Tất cả các nhà cung cấp cơ sở dữ liệu đang thêm các
tính năng vào DBMS của họ nhằm mục đích làm cho nó phù hợp hơn để triển khai qua
Internet.
Quản lý cơ sở dữ liệu ngày càng trở nên quan trọng khi có nhiều dữ liệu được đưa
vào mạng và dễ tiếp cận hơn thông qua mạng máy tính. Ngày nay, lĩnh vực này đang
được thúc đẩy và phát triển theo các hướng mới như cơ sở dữ liệu đa phương tiện, video
4
tương tác, thư viện kỹ thuật số, một loạt các dự án khoa học như nỗ lực lập bản đồ bộ
gen người và dự án hệ thống quan sát trái đất của NASA, và mong muốn của các công
ty hợp nhất việc ra quyết định của họ xử lý và khai thác kho dữ liệu của họ để có thông
tin hữu ích về doanh nghiệp. Về mặt thương mại, hệ thống quản lý cơ sở dữ liệu đại
diện cho một trong những phân khúc thị trường lớn nhất và mạnh mẽ nhất. Vì vậy, việc
nghiên cứu các hệ thống cơ sở dữ liệu có thể được chứng minh là vô cùng bổ ích theo
nhiều cách khác nhau.
Chia sẻ với bạn bè của bạn: |