Cơ chế hoạt động của Hadoop: Giai đoạn 1

tải về 13.9 Kb.

Chuyển đổi dữ liệu	26.03.2022
Kích	13.9 Kb.
	#51389

Cơ chế hoạt động của Hadoop

Cơ chế hoạt động của Hadoop:

Giai đoạn 1:

Các user hoặc ứng dụng đều sẽ submit được một công việc lên Hadoop (hadoop Job client) để có thể đề xuất các yêu cầu xử lý thông tin cơ bản như:

Nơi lưu các dữ liệu input, output trên hệ thống các dữ liệu thuộc dạng phân tán.
Các dữ liệu sẽ được xử lý thông qua 2 hàm chính là Map và Reduce.
- Map có chức năng quét toàn bộ dữ liệu và phân tán chúng thành các dữ liệu con.
- Reduce có chức năng thu thập các dữ liệu còn lại và sắp xếp chúng.
Những thiết bị cụ thể hoặc liên quan đến các job đều thông qua những thông số truyền vào.

Giai đoạn 2:
- Hadoop job client submit job sẽ thiết lập cho JobTracker.
- Sau đó, máy chủ ‘mẹ” (master) sẽ thực hiện các công việc như phân phối cho các tác vụ đến máy chủ con (slave) để có thể theo dõi cũng như quản lý được các tiến trình hoạt động của các nhà máy.
- Từ đó, sẽ liên tiếp thực hiện việc cung cấp các thông tin liên quan đến việc chuẩn đoán các tình trạng có liên quan đến job-client.
- Các máy chủ con thực hiện các job được giao và trả kết quả cho máy chủ mẹ.
Giai đoạn 3:

TaskTracker được nằm trên các node sẽ tiến hành thực thi cho các tác vụ MapReduce để có thể trả về được những kết quả thuộc dạng output đã được lưu trữ ngay trong hệ thống file.

Khi thực hiện chạy Hadoop thì cũng đồng nghĩa là bạn đạng chạy các tập trình nền hoặc những chương trình thuộc dạng thường trú khác ngay trên các máy chủ khác nhau nằm trên mạng của bạn. Các trình nền này thường sẽ có những vai trò cụ thể nên những chỉ số tồn tại trên máy chủ có thể tồn tại ở nhiều máy chủ khác nhau.

tải về 13.9 Kb.

Chia sẻ với bạn bè của bạn: