Trước khi học bất cứ gì về kiểm thử ETL thì điều quan trọng là cần phải học về Business Intelligence và Dataware.
BI là gì?
Business Intelligence (BI) là một quy trình dựa trên công nghệ để phân tích dữ liệu và cung cấp thông tin có thể hành động giúp các CEO, người quản lý và người lao động đưa ra các quyết định kinh doanh sáng suốt.
Các dữ liệu thô là các bản ghi về các giao dịch hàng ngày của một tổ chức như các tương tác với khách hàng, quản trị tài chính, v.v.
Những dữ liệu này sẽ được sử dụng cho việc “Báo cáo, phân tích, khai thác dữ liệu, phân tích và nâng cao chất lượng dữ liệu và phân tích dự đoán”.
Kho dữ liệu là gì?
Kho dữ liệu (data warehouse) là CSDL mà được thiết kế cho việc truy vấn và phân tích dữ liệu thay vì xử lý giao dịch.
Kho dữ liệu được xây dựng bằng việc tích hợp dữ liệu từ nhiều nguồn không đồng nhất. Nó cho phép công ty hoặc tổ chức hợp nhất dữ liệu từ một số nguồn khác nhau và tách biệt công việc phân tích với công việc giao dịch.
Dữ liệu được chuyển thành thông tin chất lượng cao để đáp ứng tất cả những yêu cầu báo cáo của doanh nghiệp cho tất cả các cấp độ người dùng.
ETL là gì?
ETL là viết tắt cho Extract-Transform-Load và nó là một quy trình về cách mà dữ liệu được tải từ hệ thống nguồn tới Kho dữ liệu. Dữ liệu được trích xuất từ một CSDL OLTP, được chuyển đổi để khớp với lược đồ kho dữ liệu và được tải tới CSDL kho dữ liệu. Nhiều kho dữ liệu cũng kết hợp dữ liệu từ các hệ thống không phải OLTP như các tệp văn bản, hệ thống cũ.
ROAD MAP tiến trình của ETL.
- Extract : Trích xuất dữ liệu liên quan
- Transform:
- Chuyển đổi dữ liệu sang định dạng DW
- Xây dựng các loại khóa – Khóa là một hoặc nhiều thuộc tính dữ liệu mà xác định duy nhất một thực thể. Có nhiều loại khóa khác nhau như khóa chính, khóa thay thế, khóa ngoại, khóa tổng hợp, khóa đại lý kho dữ liệu sở hữu các khóa này và không bao giờ cho phép bất kỳ thực thể nào khác gán chúng.
- Làm sạch dữ liệu: Sau khi dữ liệu được trích xuất, nó sẽ chuyển sang giai đoạn tiếp theo, gọi là giai đoạn làm sạch và làm phù hợp dữ liệu. Việc làm sạch sẽ thực hiện xác định và sửa các thiếu sót cũng như các lỗi.dữ liệu. Việc làm phù hợp có nghĩa là giải quyết các xung đột giữa các dữ liệu mà không tương thích nhau, để chúng có thể được sử dụng trong kho dữ liệu doanh nghiệp. Thêm vào đó, hệ thống này tạo ra siêu dữ liệu mà được sử dụng để chẩn đoán các vấn đề hệ thống nguồn và nâng cao chất lượng dữ liệu.
- Load:
- Tải dữ liệu vào DW
- Xây dựng các tập hợp – Tạo một tập hợp là tóm tắt và lưu trữ dữ liệu mà sẵn có trong bảng thực tế để nâng cao hiệu suất của các truy vấn người dùng cuối.