Giới thiệu về Apache Flink – Xử lý luồng Dữ liệu

4 min read

Tổng quan

Apache Flink là một framework mã nguồn mở, có hiệu suất cao, được thiết kế cho việc xử lý dữ liệu quy mô lớn, với đặc biệt trong việc xử lý Dữ liệu dạng luồng (Data Stream) trong thời gian thực. Đặc tính của nó là ít độ trễ và khả năng tính toán có trạng thái (Stateful Computations), cho phép người dùng xử lý dữ liệu trực tiếp và tạo ra hay phân tích thông tin ngay lập tức. Flink có khả năng chịu lỗi, có khả năng mở rộng và cung cấp các khả năng xử lý dữ liệu mạnh mẽ phục vụ cho nhiều trường hợp sử dụng khác nhau.

Xử lý Dữ liệu dạng luồng là cách tính toán cho phép xử lý dữ liệu thời gian thực ngay dữ liệu đến hoặc được tạo ra. Khác với việc xử lý Dữ liệu theo từng phần (Data Batch), xử lý Dữ liệu dạng luồng xử lý cả khi Dữ liệu đang di chuyển. Ví dụ điển hình này sẽ cực kỳ hữu dụng cho việc cần được phân tích ngay lập tức, như Phân tích dữ liệu thời gian thực, phát hiện gian lận, và sử dụng trong các hệ thống dựa trên sự kiện (Event Driven Systems). Flink có khả năng xử lý Dữ liệu dạng luồng mạnh mẽ, và xử lý dữ liệu nhanh chóng, đồng thời đảm bảo xử lý “chỉ một lần” (exactly-one processing) khiến cho Flink là một lựa chọn hàng đầu cho những ứng dụng ở trên.

Khái niệm chung về thành phần của Apache Flink

DataStream API:

Công cụ chính của Flink để tạo ứng dụng xử lý dữ liệu dạng luồng, cung cấp các hoạt động, chức năng để biến đổi và thao tác trên các luồng dữ liệu.

Windows:

Xác định một tập hợp lượng dữ liệu hữu hạn các sự kiện dạng luồng để tính toán. Có thể dựa trên số lượng, thời gian hoặc phiên (sessions).

Transformations:

Bao gồm các chức năng được dùng để biến đổi các luồng dữ liệu nhận đến để tạo ra các luồng mới. Có thể kể đến như map, filter, flatMap, keyBy, reduce, aggregate và window.

Sources:

Điểm bắt đầu của các ứng dụng Flink nhận dữ liệu từ các hệ thống bên ngoài hay một tập tin hay topic của Kafka.

Sinks:

Điểm cuối cùng, là nơi các ứng dụng Flink đã được xử lý kết thúc, chẳng hạn như một tập tin, cơ sở dữ liệu hoặc hàng đợi tin nhắn.

Event Time vs. Processing Time:

Flink hỗ trợ các khái niệm thời gian khác nhau trong xử lý dữ liệu dạng luồng. Thời gian Sự kiện (Event Time) là thời gian khi một sự kiện xảy ra, trong khi thời gian xử lý (Processing Time) là thời gian khi sự kiện được hệ thống xử lý. Flink hoạt động rất tốt trong việc xử lý thời gian sự kiện, điều này cực kỳ quan trọng để có kết quả chính xác trong nhiều tình huống.

CEP (Xử lý Sự kiện Phức tạp):

Flink hỗ trợ CEP, là khả năng phát hiện mẫu (patterns) và điều kiện phức tạp trên nhiều luồng sự kiện.

Table API & SQL:

Flink cung cấp Table API và SQL interface cho việc xử lý dữ liệu dạng lô và luồng. Việc này cho phép người dùng viết các ứng dụng xử lý dữ liệu phức tạp chỉ bằng cách sử dụng ngôn ngữ tương tự SQL.

Stateful Functions (StateFun):

StateFun là một framework bởi Apache Flink được thiết kế để xây dựng các ứng dụng phân tán có trạng thái. Nó cung cấp chức năng để định nghĩa, quản lý và tương tác với một trạng thái phân tán (distributed state of functions) của các hàm đang phát triển động.

Operator Chain và Task:

Các hoạt động biến đổi dữ liệu (data transformations) của Flink có thể được kết nối với nhau thành một tác vụ để thực thi một cách hiệu quả. Điều này giảm bớt việc quá tải của việc di chuyển data từ luồng (thread) này sang luồng khác và tối ưu lưu trữ tạm thời.

Checkpoints:

Checkpoints là một bản chụp (snapshot) của trạng thái của một ứng dụng Flink tại một thời điểm nhất định. Chúng cung cấp tính chịu lỗi bằng cách cho phép một ứng dụng quay lại một trạng thái trước đó trong trường hợp có sự cố xảy ra.

Savepoints:

Savepoints tương tự như checkpoints, nhưng chúng được kích hoạt bằng cách thủ công và cung cấp một cách để phiên bản và quản lý trạng thái của các ứng dụng Flink. Chúng được sử dụng khi bảo trì có kế hoạch hay nâng cấp ứng dụng.

Quản lý Trạng thái:

Flink cung cấp quản lý trạng thái có khả năng chịu lỗi, nghĩa là nó có thể theo dõi trạng thái của một ứng dụng (ví dụ, sự kiện cuối cùng được xử lý) và khôi phục nó nếu có sự cố xảy ra.

Watermarks:

Watermarks là một cơ chế để chỉ ra tiến trình trong thời gian sự kiện. Flink sử dụng watermarks để xử lý các sự kiện muộn (late events) trong xử lý luồng, đảm bảo hệ thống có thể xử lý các sự kiện không theo thứ tự và cung cấp kết quả chính xác.

Nguồn tài liệu tham khảo:
https://dev.to/mage_ai/getting-started-with-apache-flink-a-guide-to-stream-processing-e19

Avatar photo

Leave a Reply

Your email address will not be published. Required fields are marked *