Big Data I. Mô hình lập trình MapReduce cho Bigdata



tải về 382.36 Kb.
Chế độ xem pdf
trang3/6
Chuyển đổi dữ liệu29.02.2024
Kích382.36 Kb.
#56658
1   2   3   4   5   6
Li thuyet Hadoop

III. Hadoop Ecosystem
Hệ sinh thái Apache Hadoop đề cập đến các thành phần khác nhau của thư viện phần mềm Apache 
Hadoop; nó bao gồm các dự án mã nguồn mở cũng như một loạt các công cụ bổ sung hoàn chỉnh 
khác. Một số công cụ nổi tiếng nhất của hệ sinh thái Hadoop bao gồm HDFS, Hive, Pig, YARN, 
MapReduce, Spark, HBase, Oozie, Sqoop, Zookeeper,…
Với HDFS, Hadoop MapReduce mình sẽ có các bài viết riêng sau, trong bài viết về Hadoop 
Ecosystem này chỉ mang tính chất liệt kê và giới thiệu các thành phần trong hệ sinh thái Hadoop.
HDFS
Hadoop Distributed File System (HDFS) là một trong những hệ thống lớn nhất trong hệ sinh thái 
Hadoop và là hệ thống lưu trữ chính của Hadoop.
HDFS cung cấp khả năng lưu trữ tin cậy và chi phí hợp lí cho khối dữ liệu lớn, tối ưu cho các tập 
tin kích thước lớn ( từ vài trăm MB cho tới vài TB). HDFS có không gian cây thư mục phân cấp 
giống như các hệ điều hành Unix, Linux.
Do các tính chất của dữ liệu lớn và hệ thống tập tin phân tán nên việc chỉnh sửa là rất khó khăn, Vì 
thế mà HDFS chỉ hỗ trợ việc ghi thêm dữ liệu vào cuối tệp (append), nếu bạn muốn chỉnh sửa ở bất 
kì chỗ khác chỉ có cách là viết lại toàn bộ tệp với các phần sửa đổi và thay thế lại tệp cũ. HDFS tuân
theo tiêu chí “ghi một lần và đọc nhiều lần”.
Kiến trúc của HDFS là kiến trúc Master/Slave, HDFS master (namenode) quản lý không gian tên và
các metadata, giám sát các datanode. HDFS slave (datanode) trực tiếp thao tác I/O với các chunks.
Nguyên lý thiết kế của HDFS là:

Chỉ ghi thêm (append) => giảm chi phí điều khiển tương tranh

Phân tán dữ liệu

Nhân bản dữ liệu

Cơ chế chịu lỗi


Hive
Apache Hive là một công cụ cơ sở hạ tầng kho dữ liệu để xử lý dữ liệu có cấu trúc trong Hadoop. 
Hive tạo điều kiện cho việc đọc, ghi và quản lý các tập dữ liệu lớn nằm trong bộ lưu trữ phân tán 
bằng cách sử dụng SQL (tuy nhiên hãy nhớ Hive không phải là một CSDL quan hệ).
Hive cung cấp ngôn ngữ kiểu SQL để truy vấn được gọi là HiveQL hoặc HQL.
Để tìm hiểu thêm về Hive bạn có thể xem thêm tại trang chủ của Hive: https://hive.apache.org/
HBase
HBase là một cơ sở dữ liệu dạng column-family, lưu trữ dữ liệu trên HDFS, được xem như là hệ 
quản trị CSDL của Hadoop.
Để hiểu rõ hơn về Column-Family bạn có thể đọc thêm bài báo về Bigtable: Bigtable: A Distributed
Storage System for Structured Data
Xem thêm về Apache HBase tại: https://hbase.apache.org/



tải về 382.36 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương