Chào mừng bạn quay trở lại với loạt hướng dẫn Airflow cho người mới! Trong phần này, chúng ta sẽ tìm hiểu cách cài đặt và chạy Apache Airflow trong một môi trường Python hoặc với Docker
P2: Running Airflow in Python Env
Bước 1: Cài đặt Python
Đảm bảo rằng bạn đã cài đặt Python phiên bản 3.6 trở lên. Airflow không tương thích với các phiên bản Python cũ hơn. Bạn có thể kiểm tra phiên bản Python của mình bằng cách mở terminal hoặc command prompt và nhập:
python --version
Bước 2: Thiết Lập Môi Trường Ảo
Khuyên dùng việc sử dụng một môi trường ảo để cài đặt Airflow, giúp quản lý các phụ thuộc một cách dễ dàng và không gây xung đột với các thư viện hệ thống. Bạn có thể tạo một môi trường ảo bằng cách sử dụng venv
hoặc conda
. Dưới đây là cách tạo môi trường ảo với venv
:
python -m venv airflow_venv
Sau đó, kích hoạt môi trường ảo:
- Trên Windows:
airflow_venv\Scripts\activate
- Trên MacOS/Linux:
source airflow_venv/bin/activate
Bước 3: Cài Đặt Airflow
Với môi trường ảo đã được kích hoạt, bạn có thể cài đặt Airflow sử dụng pip. Apache khuyên dùng cài đặt Airflow với các bản constraints để đảm bảo tất cả các phụ thuộc đều được kiểm soát:
pip install apache-airflow==2.2.0 --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.2.0/constraints-3.7.txt"
Thay thế “2.2.0” bằng phiên bản mới nhất của Airflow và “3.7” bằng phiên bản Python của bạn nếu cần.
Bước 4: Khởi Tạo Cơ Sở Dữ Liệu
Airflow sử dụng một cơ sở dữ liệu để lưu trữ thông tin về trạng thái của các task và DAG. Để khởi tạo cơ sở dữ liệu, hãy chạy:
airflow db init
Bước 5: Tạo Tài Khoản Người Dùng
Trước khi sử dụng Airflow, bạn cần tạo ít nhất một tài khoản người dùng. Bạn có thể tạo một tài khoản bằng cách sử dụng CLI của Airflow:
airflow users create \
--username admin \
--firstname FIRST_NAME \
--lastname LAST_NAME \
--role Admin \
--email admin@example.com
Bước 6: Khởi Động Web Server
Cuối cùng, bạn có thể khởi động web server của Airflow:
airflow webserver --port 8080
Mặc định, web server sẽ chạy trên cổng 8080. Bạn có thể truy cập bằng cách mở trình duyệt và đi tới địa chỉ http://localhost:8080.
Bước 7: Khởi Động Scheduler
Mở một terminal mới, kích hoạt môi trường ảo và khởi động scheduler của Airflow:
airflow scheduler
Scheduler là thành phần quản lý việc thực thi các task trong DAGs của bạn.
Bây giờ, bạn đã sẵn sàng bắt đầu tạo và lập lịch cho các DAG của mình trong Airflow! Ở các phần tiếp theo của series, chúng ta sẽ tìm hiểu cách chạy trên trên Docker.
Tài liệu tham khảo here