giẢi phÁp phẦn mỀm - api.vietbando.com · giẢi phÁp phẦn mỀm vietbando- etl 3 dựng...
TRANSCRIPT
GIẢI PHÁP PHẦN MỀM VIETBANDO ETL
MỤC LỤC
1. Công cụ ETL là gì ................................................................................................ 2
2. Tại sao sử dụng công cụ ETL ............................................................................... 2
3. Giải pháp VIETBANDO ETL .............................................................................. 2
4. Tính năng VIETBANDO ETL ............................................................................. 3
5. Mô tả chức năng phần mềm ................................................................................. 6
5.1. Tạo một chuyển đổi dữ liệu mới .................................................................... 6
5.2. Các bước chuyển đổi dữ liệu ......................................................................... 7
5.3. Đặc điểm của các bước chuyển đổi ................................................................ 7
a. Mở chương trình ............................................................................................ 8
b. Nhập thông tin kết nối đến nguồn dữ liệu (MySql) và nhấn nút Kết nối ......... 8
c. Chọn mẻ dữ liệu ............................................................................................ 9
d. Nhập thông tin kết nối đến hệ thống VDMS (Sql Server) và nhấn nút Kết nối 9
e. Chọn thuộc tính lớp dữ liệu đồng bộ với thuộc tính mẻ dữ liệu .................... 10
f. Nhấn nút Next để sang bước kế tiếp ............................................................ 10
g. Chọn cột dữ liệu từ nguồn, thuộc tính lớp dữ liệu đích và loại dữ liệu tương
ứng, sau đó nhấn nút Next ................................................................................. 10
h. Chọn nơi lưu trữ(cửa sổ bên trái) và chọn tiêu đề, trạng thái hồ hồ import(cửa
sổ bên phải). Kế tiếp nhấn nút Next .................................................................. 12
i. Hoàn tất quá trình export ............................................................................. 12
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 2
1. Công cụ ETL là gì
Công cụ ETL là phần mềm sử dụng để nhập dữ liệu vào cơ sở dữ liệu, kho dữ
liệu từ các nguồn dữ liệu không đồng nhất. ETL là viết tắt của:
Extract – Trích xuất dữ liệu từ các nguồn dữ liệu
Transform – Chuyển đổi dữ liệu để sửa lỗi, làm sạch dữ liệu, thay đổi cấu
trúc dữ liệu, sửa dữ liệu theo các tiêu chuẩn quy định…
Load – Nhập dữ liệu đã chuyển đổi vào một DBMS, dịch vụ, định dạng
file nào đó...
Một công cụ ETL quản lý việc chèn dữ liệu mới và cập nhật dữ liệu hiện có.
Nó cũng có thể thực hiện chuyển đổi từ một hệ thống OLTP sang một hệ thống
OLTP khác và từ một hệ thống OLTP đến kho dữ liệu phân tích.
2. Tại sao sử dụng công cụ ETL
Có rất nhiều lý do để sử dụng công cụ ETL. Trong số đó là việc tự động hóa
xử lý dữ liệu phức tạp và lặp đi lặp lại mà không cần dòng code nào, việc chuyển
đổi giữa các định dạng dữ liệu khác nhau, việc di chuyển dữ liệu giữa các DBMS,
nhập dữ liệu vào các DBMS khác nhau, làm đầy kho dữ liệu phân tích hỗ trợ ra
quyết định...
3. Giải pháp VIETBANDO ETL
VIETBANDO ETL là một công cụ ETL không gian (Extract, Transform và
Load) mạnh mẽ dành riêng cho việc tích hợp các nguồn dữ liệu khác nhau để xây
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 3
dựng và cập nhật cơ sở dữ liệu không gian địa lý, kho dữ liệu và các dịch vụ web
với các biến đổi thực hiện trực tiếp.
VIETBANDO ETL cho phép khai thác dữ liệu từ các nguồn dữ liệu, chuyển
đổi dữ liệu để sửa lỗi, làm sạch dữ liệu, thay đổi cấu trúc dữ liệu, làm cho dữ liệu
phù hợp với các tiêu chuẩn, và tải các dữ liệu đã biến đổi vào một hệ thống quản
lý cơ sở dữ liệu (DBMS), file GIS, hay dịch vụ web không gian địa lý.
VIETBANDO ETL là đặc biệt hữu ích cho việc tự động xử lý dữ liệu phức
tạp và lặp đi lặp lại mà không cần code, chuyển đổi giữa các định dạng dữ liệu, di
chuyển dữ liệu giữa các cơ sở dữ liệu, nhập dữ liệu vào cơ sở dữ liệu…
VIETBANDO ETL ổn định, nhanh, phù hợp các tiêu chuẩn, với hàng trăm
chức năng và hỗ trợ đọc / ghi nhiều định dạng file, dịch vụ và DBMS.
Hỗ trợ các DBMS: MySQL, PostgreSQL, Oracle,
MS SQL Server,MongoDB;
Hỗ trợ các định dạng file dữ liệu khác nhau đọc / ghi: text, Excel, Access,
DBF, XML, …
Nhiều dịch vụ / hệ thống: LDAP, CRM, …cũng như nhiều bước chuyển
đổi.
VIETBANDO ETL cung cấp một tích hợp phù hợp với các thành phần không
gian. Tất cả các bước được cung cấp bởi VIETBANDO ETL có thể ứng phó với
các loại dữ liệu không gian địa lý. Một số bước chuyển dữ liệu không gian địa lý
chuyên biệt đã được thêm vào (Sensor Observation Service (SOS), Catalogue
Web Service (CWS), phân tích không gian ...) cho phép tích hợp mạnh mẽ dữ liệu
không gian của doanh nghiệp.
4. Tính năng VIETBANDO ETL
Trích xuất dữ liệu từ:
CSDL: MySQL, PostgreSQL, Oracle, MS SQL Server, MongoDB, VBD
InMemoryDB.
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 4
File XML
File XLS
File hệ thống thông tin
Dữ liệu tạo ra
File MS Access
LDAP
Hệ thống OLAP & SOLAP (Spatial OLAP)
Định dạng dữ liệu không gian địa lý: Shapefile, GML 3.1.1, KML 2.2, tất
cả định dạng được hỗ trợ bởi OGC
Dịch vụ web OGC: Web Feature Service (WFS), Sensor Observation
Service (SOS), Catalogue Web Service (CWS)
Chuyển đổi dữ liệu:
Truyền dữ liệu dựa trên Engine (không phát sinh code)
Tìm kiếm dữ liệu trong cơ sở dữ liệu, file hoặc bộ nhớ
Tính toán
Script: Javascript, SQL, RegExp
Tách dữ liệu
Ánh xạ
Lựa chọn
Phân vùng
Lọc
Trộn
Kết hợp
Nhân bản
Gom cụm
Xoay vòng
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 5
Phân tích dữ liệu không gian địa lý: bộ đệm, trọng tâm, khoảng cách, giao
lộ, tổng hợp...
Xử lý dữ liệu địa lý nâng cao: clipping, delaunay, đơn giản hóa / làm mịn
hình học, tính năng chia tách…
Tích hợp không gian
Xem trước bản đồ
Tải dữ liệu vào định dạng nhất định:
CSDL: MySQL, PostgreSQL, Oracle, MS SQL Server, MongoDB, VBD
InMemoryDB.
Định dạng dữ liệu không gian địa lý: Shapefile, GML 3.1.1, KML 2.2, tất
cả định dạng được hỗ trợ bởi OGC
Dịch vụ web OGC: Web Feature Service (WFS), Sensor Observation
Service (SOS), Catalogue Web Service (CWS)
Tải theo phân vùng
Tải theo khối
Tải song song
Tải phân cụm
Môi trường:
Giao diện đầy đủ để chỉnh sửa tất cả các tùy chọn chuyển đổi dữ liệu
Công cụ script: thực hiện các job và biến đổi dữ liệu
Máy chủ Web: thực hiện từ xa và phân nhóm hoàn hảo trong môi trường
điện toán đám mây để xử lý các tập dữ liệu rất lớn
Lập trình API
Module hệ sinh thái
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 6
5. Mô tả chức năng phần mềm
5.1. Tạo một chuyển đổi dữ liệu mới
Khi thực hiện một chuyển đổi dữ liệu, sử dụng công cụ VBD-WorkFlow từ
thanh công cụ của phần mềm để định nghĩa các bước chuyển đổi dữ liệu:
Để thêm một bước mới để chuyển đổi, có thể dễ dàng qua vài thao tác click
chuột. Sau đó, bạn có thể tùy chỉnh bước thêm mới này vào chuyển đổi của bạn
bằng cách nhấp đúp vào nó.
Command
Một command là một mũi tên giữa 2 bước, định nghĩa dataflow giữa những
bước này.
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 7
Thiết lập chuyển đổi dữ liệu
Hầu hết các bước trong một chuyển đổi sẽ đòi hỏi tùy chỉnh thông tin trước
khi sử dụng. Kích đúp vào bước bất kỳ để hiển thị một giao diện hộp thoại trong
đó bạn có thể nhìn thấy và xác định mỗi giá trị tham số yêu cầu.
5.2. Các bước chuyển đổi dữ liệu
Một bước là một phần của một chuyển đổi. Các bước có thể cung cấp cho bạn
một loạt các chức năng khác nhau, từ đọc file văn bản đến thực hiện thay đổi các
chiều.
5.3. Đặc điểm của các bước chuyển đổi
Một bước cần phải có một tên duy nhất trong một chuyển đổi;
Các bước đọc dữ liệu đến từ các command hoặc từ một đầu vào bên ngoài
trong trường hợp của bước đầu tiên;
Các bước ghi dữ liệu vào một hoặc nhiều command;
Trong một chuyển đổi, các bước chạy đồng thời, mỗi bước chạy trong
luồng riêng của nó;
Song song là một đặc điểm chính của các bước trong một chuyển đổi, do
đó không thể xác định thứ tự mà các bước được chạy trong một chuyển
đổi;
Thực hiện các tác vụ theo một thứ tự cụ thể.
Dưới đây là 1 ví dụ về chương trình đã được thiết lập các bước chuyển đổi có
sẵn trong Vietbando ETL.
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 8
a. Mở chương trình
b. Nhập thông tin kết nối đến nguồn dữ liệu (MySql) và nhấn nút Kết
nối
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 9
c. Chọn mẻ dữ liệu
d. Nhập thông tin kết nối đến hệ thống VDMS (Sql Server) và nhấn nút
Kết nối
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 10
e. Chọn thuộc tính lớp dữ liệu đồng bộ với thuộc tính mẻ dữ liệu
f. Nhấn nút Next để sang bước kế tiếp
g. Chọn cột dữ liệu từ nguồn, thuộc tính lớp dữ liệu đích và loại dữ liệu
tương ứng, sau đó nhấn nút Next
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 11
Chú thích:
Tên cột: là những id qui ước thuộc dữ liệu số hóa(nguồn)
Thuộc tính: là những id qui ước thuộc dữ liệu VDMS(đích). Khi id
nguồn trùng với id đích, hệ thống sẽ tự động sắp xếp tương ứng. Tuy
nhiên, sẽ xuất hiện những trường hợp không trùng, người dùng buộc
phải chọn id phù hợp & tương ứng
Bộ chuyển đổi: chỉ dùng đối với những trường hợp đặc biệt. Ví dụ như
hình vẽ: id Gender của nguồn có giá trị 0, 1=> sẽ hiện thị không tường
minh khi xuất dữ liệu nhập. Lúc này, người dùng cần chọn bộ chuyển
đổi để chuẩn hóa dữ liệu tường minh hơn, cụ thể các giá trị 0 sẽ chuyển
thành Nam, giá trị 1 sẽ thành Nữ….
GIẢI PHÁP PHẦN MỀM VIETBANDO- ETL 12
h. Chọn nơi lưu trữ(cửa sổ bên trái) và chọn tiêu đề, trạng thái hồ hồ
import(cửa sổ bên phải). Kế tiếp nhấn nút Next
i. Hoàn tất quá trình export