Airflow Tutorial for Beginners – P2: Run Airflow in Python

2 min read

Chào mừng bạn quay trở lại với loạt hướng dẫn Airflow cho người mới! Trong phần này, chúng ta sẽ tìm hiểu cách cài đặt và chạy Apache Airflow trong một môi trường Python hoặc với Docker

P2: Running Airflow in Python Env

Bước 1: Cài đặt Python

Đảm bảo rằng bạn đã cài đặt Python phiên bản 3.6 trở lên. Airflow không tương thích với các phiên bản Python cũ hơn. Bạn có thể kiểm tra phiên bản Python của mình bằng cách mở terminal hoặc command prompt và nhập:

python --version

Bước 2: Thiết Lập Môi Trường Ảo

Khuyên dùng việc sử dụng một môi trường ảo để cài đặt Airflow, giúp quản lý các phụ thuộc một cách dễ dàng và không gây xung đột với các thư viện hệ thống. Bạn có thể tạo một môi trường ảo bằng cách sử dụng venv hoặc conda. Dưới đây là cách tạo môi trường ảo với venv:

python -m venv airflow_venv

Sau đó, kích hoạt môi trường ảo:

  • Trên Windows:
airflow_venv\Scripts\activate
  • Trên MacOS/Linux:
source airflow_venv/bin/activate

Bước 3: Cài Đặt Airflow

Với môi trường ảo đã được kích hoạt, bạn có thể cài đặt Airflow sử dụng pip. Apache khuyên dùng cài đặt Airflow với các bản constraints để đảm bảo tất cả các phụ thuộc đều được kiểm soát:

pip install apache-airflow==2.2.0 --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.2.0/constraints-3.7.txt"

Thay thế “2.2.0” bằng phiên bản mới nhất của Airflow và “3.7” bằng phiên bản Python của bạn nếu cần.

Bước 4: Khởi Tạo Cơ Sở Dữ Liệu
Airflow sử dụng một cơ sở dữ liệu để lưu trữ thông tin về trạng thái của các task và DAG. Để khởi tạo cơ sở dữ liệu, hãy chạy:

airflow db init

Bước 5: Tạo Tài Khoản Người Dùng
Trước khi sử dụng Airflow, bạn cần tạo ít nhất một tài khoản người dùng. Bạn có thể tạo một tài khoản bằng cách sử dụng CLI của Airflow:

airflow users create \
    --username admin \
    --firstname FIRST_NAME \
    --lastname LAST_NAME \
    --role Admin \
    --email admin@example.com

Bước 6: Khởi Động Web Server
Cuối cùng, bạn có thể khởi động web server của Airflow:

airflow webserver --port 8080

Mặc định, web server sẽ chạy trên cổng 8080. Bạn có thể truy cập bằng cách mở trình duyệt và đi tới địa chỉ http://localhost:8080.

Bước 7: Khởi Động Scheduler
Mở một terminal mới, kích hoạt môi trường ảo và khởi động scheduler của Airflow:

airflow scheduler

Scheduler là thành phần quản lý việc thực thi các task trong DAGs của bạn.

Bây giờ, bạn đã sẵn sàng bắt đầu tạo và lập lịch cho các DAG của mình trong Airflow! Ở các phần tiếp theo của series, chúng ta sẽ tìm hiểu cách chạy trên trên Docker.

Tài liệu tham khảo here

Avatar photo

Leave a Reply

Your email address will not be published. Required fields are marked *