Big Data I. Mô hình lập trình MapReduce cho Bigdata



tải về 382.36 Kb.
Chế độ xem pdf
trang4/6
Chuyển đổi dữ liệu29.02.2024
Kích382.36 Kb.
#56658
1   2   3   4   5   6
Li thuyet Hadoop

Hadoop MapReduce
Đây là một lớp xử lý dữ liệu khác của Hadoop. Nó có khả năng xử lý dữ liệu có cấu trúc và phi cấu 
trúc lớn cũng như quản lý song song các tệp dữ liệu rất lớn bằng cách chia công việc thành một tập 
hợp các nhiệm vụ độc lập (sub-job).
Apache Zookeeper
Zookeeper là một dịch vụ cung cấp các chức năng phối hợp phân tán độ tin cậy cao:

Quản lý các thành viên trong nhóm máy chủ

Bầu cử leader

Quản lý thông tin cấu hình động

Giám sát trạng thái hệ thống
Đây là một dịch vụ lõi, tối quan trọng trong các hệ thống phân tán.
Xem thêm về Zookeeper tại https://zookeeper.apache.org/
YARN
Apache Hadoop YARN (Yet Another Resource Negotiator) được giới thiệu từ Hadoop 2.0 là một 
công nghệ hỗ trợ quản lý tài nguyên và lập lịch công việc trong Hadoop.
Chúng ta có thể thấy sự hiện diện của YARN chính là 2 daemons:

Node Managers

Resource Manager


Apache Kafka
Apache Kafka là một hệ thống được tạo ra bởi linkedin nhằm phục vụ cho việc xử lý dữ liệu theo 
luồng (stream process) sau đó được open-source. Ban đầu nó được nhìn nhận dưới dạng một 
message queue nhưng sau này được phát triển thành một nền tảng xử lý phân tán
IV. HDFS
Hadoop Distributed File System (HDFS) là hệ thống lưu trữ phân tán được thiết kế để chạy trên 
các phần cứng thông dụng. HDFS có khả năng chịu lỗi cao được triển khai sử dụng các phần cứng 
giá rẻ. HDFS cung cấp khả năng truy cập thông lượng cao vào dữ liệu ứng dụng vì thế nó rất phù 
hợp với ứng dụng có tập dữ liệu lớn.
Mục tiêu của HDFS

Tiết kiệm chi phí cho việc lưu trữ dữ liệu lớn: có thể lưu trữ dữ liệu megabytes đến 
petabytes, ở dạng có cấu trúc hay không có cấu trúc.

Dữ liệu có độ tin cậy cao và có khả năng khắc phục lỗi: Dữ liệu lưu trữ trong HDFS được 
nhân bản thành nhiều phiên bản và được lưu tại các DataNode khác nhau, khi có 1 máy bị 
lỗi thì vẫn còn dữ liệu được lưu tại DataNode khác.

Tính chính xác cao: Dữ liệu lưu trữ trong HDFS thường xuyên được kiểm tra bằng mã 
checksum được tính trong quá trình ghi file, nếu có lỗi xảy ra sẽ được khôi phục bằng các 
bản sao.

Khả năng mở rộng: có thể tăng hàng trăm node trong một cluster.

Có throughput cao: tốc độ xử lý truy nhập dữ liệu cao.

Data Locality: xử lý dữ liệu tại chỗ.

tải về 382.36 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương