Big Data I. Mô hình lập trình MapReduce cho Bigdata

tải về 382.36 Kb.

Chế độ xem pdf

trang	4/6
Chuyển đổi dữ liệu	29.02.2024
Kích	382.36 Kb.
	#56658

1 2 3 4 5 6

Li thuyet Hadoop

Hadoop MapReduce
Đây là một lớp xử lý dữ liệu khác của Hadoop. Nó có khả năng xử lý dữ liệu có cấu trúc và phi cấu
trúc lớn cũng như quản lý song song các tệp dữ liệu rất lớn bằng cách chia công việc thành một tập
hợp các nhiệm vụ độc lập (sub-job).
Apache Zookeeper
Zookeeper là một dịch vụ cung cấp các chức năng phối hợp phân tán độ tin cậy cao:
•
Quản lý các thành viên trong nhóm máy chủ
•
Bầu cử leader
•
Quản lý thông tin cấu hình động
•
Giám sát trạng thái hệ thống
Đây là một dịch vụ lõi, tối quan trọng trong các hệ thống phân tán.
Xem thêm về Zookeeper tại https://zookeeper.apache.org/
YARN
Apache Hadoop YARN (Yet Another Resource Negotiator) được giới thiệu từ Hadoop 2.0 là một
công nghệ hỗ trợ quản lý tài nguyên và lập lịch công việc trong Hadoop.
Chúng ta có thể thấy sự hiện diện của YARN chính là 2 daemons:
•
Node Managers
•
Resource Manager

Apache Kafka
Apache Kafka là một hệ thống được tạo ra bởi linkedin nhằm phục vụ cho việc xử lý dữ liệu theo
luồng (stream process) sau đó được open-source. Ban đầu nó được nhìn nhận dưới dạng một
message queue nhưng sau này được phát triển thành một nền tảng xử lý phân tán
IV. HDFS
Hadoop Distributed File System (HDFS) là hệ thống lưu trữ phân tán được thiết kế để chạy trên
các phần cứng thông dụng. HDFS có khả năng chịu lỗi cao được triển khai sử dụng các phần cứng
giá rẻ. HDFS cung cấp khả năng truy cập thông lượng cao vào dữ liệu ứng dụng vì thế nó rất phù
hợp với ứng dụng có tập dữ liệu lớn.
Mục tiêu của HDFS
•
Tiết kiệm chi phí cho việc lưu trữ dữ liệu lớn: có thể lưu trữ dữ liệu megabytes đến
petabytes, ở dạng có cấu trúc hay không có cấu trúc.
•
Dữ liệu có độ tin cậy cao và có khả năng khắc phục lỗi: Dữ liệu lưu trữ trong HDFS được
nhân bản thành nhiều phiên bản và được lưu tại các DataNode khác nhau, khi có 1 máy bị
lỗi thì vẫn còn dữ liệu được lưu tại DataNode khác.
•
Tính chính xác cao: Dữ liệu lưu trữ trong HDFS thường xuyên được kiểm tra bằng mã
checksum được tính trong quá trình ghi file, nếu có lỗi xảy ra sẽ được khôi phục bằng các
bản sao.
•
Khả năng mở rộng: có thể tăng hàng trăm node trong một cluster.
•
Có throughput cao: tốc độ xử lý truy nhập dữ liệu cao.
•
Data Locality: xử lý dữ liệu tại chỗ.

tải về 382.36 Kb.

Chia sẻ với bạn bè của bạn:

1 2 3 4 5 6