Big Data I. Mô hình lập trình MapReduce cho Bigdata

tải về 382.36 Kb.

Chế độ xem pdf

trang	5/6
Chuyển đổi dữ liệu	29.02.2024
Kích	382.36 Kb.
	#56658

1 2 3 4 5 6

Li thuyet Hadoop

HDFS Architecture
Theo dõi hình vẽ dưới để xem tổng quát về kiến trúc của HDFS.

Với HDFS, dữ liệu được ghi trên 1 máy chủ và có thể đọc lại nhiều lần sau đó tại bất cứ máy chủ
khác trong cụm HDFS. HDFS bao gồm 1 Namenode chính và nhiều Datanode kết nối lại thành một
cụm (cluster).
Namenode
HDFS chỉ bao gồm duy nhất 1 namenode được gọi là master node thực hiện các nhiệm vụ:
•
Lưu trữ metadata của dữ liệu thực tế (tên, đường dẫn, blocks id, cấu hình datanode vị trí
blocks,…)
•
Quản lý không gian tên của hệ thống file ( ánh xạ các file name với các blocks, ánh xạ các
block vào các datanode)
•
Quản lý cấu hình của cụm
•
Chỉ định công việc cho datanode
Datanode
Chức năng của Datanode:
•
Lưu trữ dữ liệu thực tế
•
Trực tiếp thực hiện và xử lý công việc ( đọc/ghi dữ liệu)
Secondary Namenode
Secondary Namenode là một node phụ chạy cùng với Namenode, nhìn tên gọi nhiều người nhầm
tưởng rằng nó để backup cho Namenode tuy nhiên không phải vậy, Secondary Namenode như là
một trợ lý đắc lực của Namenode, có vai trò và nhiệm vụ rõ ràng:
•
Nó thường xuyên đọc các file, các metadata được lưu trên RAM của datanode và ghi vào ổ
cứng.
•
Nó liên đọc nội dung trong Editlogs và cập nhật vào FsImage, để chuẩn bị cho lần khởi
động tiếp theo của namenode.

•
Nó liên tục kiểm tra tính chính xác của các tệp tin lưu trên các datanode.
Cơ chế heartbeat
Heartbeat là cách liên lạc hay là cách để datanode cho namenode biết là nó còn sống. Định kì
datanode sẽ gửi một heartbeat về cho namenode để namenode biết là datanode đó còn hoạt động.
Nếu datanode không gửi heartbeat về cho namenode thì namenode coi rằng node đó đã hỏng và
không thể thực hiện nhiệm vụ được giao. Namenode sẽ phân công task đó cho một datanode khác.
Rack
Theo thứ tự giảm dần từ cao xuống thấp thì ta có Rack > Node > Block. Rack là một cụm datanode
cùng một đầu mạng, bao gồm các máy vật lí (tương đương một server hay 1 node ) cùng kết nối
chung 1 switch
Blocks
Blocks là một đơn vị lưu trữ của HDFS, các data được đưa vào HDFS sẽ được chia thành các block
có các kích thước cố định (nếu không cấu hình thì mặc định nó là 128MB).
Vấn đề gì xảy ra nếu lưu trữ các file nhỏ trên HDFS?
Câu trả lời: HDFS sẽ không tốt khi xử lý một lượng lớn các file nhỏ. Mỗi dữ liệu lưu trữ trên HDFS
được đại diện bằng 1 blocks với kích thước là 128MB, vậy nếu lưu trữ lượng lớn file nhỏ thì sẽ cần
1 lượng lớn các block để lưu chữ chúng và mỗi block chúng ta chỉ cần dùng tới 1 ít và còn thừa rất
nhiều dung lượng gây ra sự lãng phí. Chúng ta cũng có thể thấy là block size của hệ thống file ở các
hệ điều hành tiêu biểu như linux là 4KB là rất bé so với 128MB.

tải về 382.36 Kb.

Chia sẻ với bạn bè của bạn:

1 2 3 4 5 6