Hadoop là gì?


Những điểm nổi bật của Spark



tải về 59.47 Kb.
trang3/3
Chuyển đổi dữ liệu17.06.2022
Kích59.47 Kb.
#52381
1   2   3
Big data
A4, Photo-calendar-cover-page-2
3. Những điểm nổi bật của Spark

  • Xử lý dữ liệu: Spark xử lý dữ liệu theo lô và thời gian thực

  • Tính tương thích: Có thể tích hợp với tất cả các nguồn dữ liệu và định dạng tệp được hỗ trợ bởi cụm Hadoop.

  • Hỗ trợ ngôn ngữ: hỗ trợ Java, Scala, Python và R.

  • Phân tích thời gian thực:

    • Apache Spark có thể xử lý dữ liệu thời gian thực tức là dữ liệu đến từ các luồng sự kiện thời gian thực với tốc độ hàng triệu sự kiện mỗi giây. Ví dụ: Data Twitter chẳng hạn hoặc luợt chia sẻ, đăng bài trên Facebook. Sức mạnh Spark là khả năng xử lý luồng trực tiếp hiệu quả.

    • Apache Spark có thể được sử dụng để xử lý phát hiện gian lận trong khi thực hiện các giao dịch ngân hàng. Đó là bởi vì, tất cả các khoản thanh toán trực tuyến được thực hiện trong thời gian thực và chúng ta cần ngừng giao dịch gian lận trong khi quá trình thanh toán đang diễn ra.

  • Mục tiêu sử dụng:

    • Xử lý dữ liệu nhanh và tương tác

    • Xử lý đồ thị

    • Công việc lặp đi lặp lại

    • Xử lý thời gian thực

    • joining Dataset

    • Machine Learning

    • Apache Spark là Framework thực thi dữ liệu dựa trên Hadoop HDFS. Apache Spark không thay thế cho Hadoop nhưng nó là một framework ứng dụng. Apache Spark tuy ra đời sau nhưng được nhiều người biết đến hơn Apache Hadoop vì khả năng xử lý hàng loạt và thời gian thực.

Apache Flink – Nền tảng xử lý Big Data


Apache Spark đã bắt đầu xu hướng mới bằng cách cung cấp một nền tảng đa dạng để giải quyết các vấn đề khác nhau nhưng bị hạn chế do công cụ xử lý hàng loạt cơ bản của nó xử lý các luồng cũng như các lô siêu nhỏ. Flink đã đưa ra khả năng tương tự phía trước và Flink có thể giải quyết tất cả các loại vấn đề về Big Data. Apache Flink là một công cụ tính đa chức , có thể xử lý xử lý hàng loạt, v.v.
Do đó, Apache Flink là nền tảng Big Data thế hệ tiếp theo còn được gọi là 4G của Big Data. Phần mềm chings của Flink là một thời gian chạy trực tuyến tốc độ cao, khả năng chịu lỗi, dễ sử dụng, v.v. Về cơ bản, Flink xử lý dữ liệu ở tốc độ cao với độ trễ thấp. Vì vậy, nó là nền tảng xử lý dữ liệu quy mô lớn có thể xử lý dữ liệu được tạo ra ở tốc độ rất cao
tải về 59.47 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương