Apache Kafka
Apache Kafka là một hệ thống được tạo ra bởi linkedin nhằm phục vụ cho việc xử lý dữ liệu theo
luồng (stream process) sau đó được open-source. Ban đầu nó được nhìn nhận dưới dạng một
message queue nhưng sau này được phát triển thành một nền tảng xử lý phân tán
IV. HDFS
Hadoop Distributed File System (HDFS) là hệ thống lưu trữ phân tán được thiết kế để chạy trên
các phần cứng thông dụng. HDFS có khả năng chịu lỗi cao được triển khai sử dụng các phần cứng
giá rẻ. HDFS cung cấp khả năng truy cập thông lượng cao vào dữ liệu ứng dụng vì thế nó rất phù
hợp với ứng dụng có tập dữ liệu lớn.
Mục tiêu của HDFS
•
Tiết kiệm chi phí cho việc lưu trữ dữ liệu lớn: có thể lưu trữ dữ liệu megabytes đến
petabytes, ở dạng có cấu trúc hay không có cấu trúc.
•
Dữ liệu có độ tin cậy cao và có khả năng khắc phục lỗi: Dữ liệu lưu trữ trong HDFS được
nhân bản thành nhiều phiên bản và được lưu tại các DataNode khác nhau, khi có 1 máy bị
lỗi thì vẫn còn dữ liệu được lưu tại DataNode khác.
•
Tính chính xác cao: Dữ liệu lưu trữ trong HDFS thường xuyên được kiểm tra bằng mã
checksum được tính trong quá trình ghi file, nếu có lỗi xảy ra sẽ được khôi phục bằng các
bản sao.
•
Khả năng mở rộng: có thể tăng hàng trăm node trong một cluster.
•
Có throughput cao: tốc độ xử lý truy nhập dữ liệu cao.
•
Data Locality: xử lý dữ liệu tại chỗ.
Chia sẻ với bạn bè của bạn: