Thứ tư, 24/04/2024 | 18:22 - GMT+7

Nghiên cứu giải pháp kỹ thuật lưu trữ, quản lý và phân tích dữ liệu lớn (Big Data) - Thử nghiệm đối với dữ liệu khí tượng thủy văn

Dữ liệu lớn (Big Data) là một trong số các lĩnh vực của công nghệ thông tin (CNTT) đã và đang có tầm ảnh hưởng rộng khắp.

31/03/2023 - 08:51
Trong doanh nghiệp, dữ liệu lớn đã được khai thác sử dụng phục vụ việc dự đoán xu hướng thị trường, nâng cao chất lượng sản phẩm hoặc dịch vụ hiện có, tạo ra sản phẩm mới hoặc tìm hiểu về hành vi khách hàng. Trong cơ quan nhà nước, việc khai thác sử dụng dữ liệu lớn cũng là xu thế của Chính phủ nhiều nước để phục vụ công tác quản lý và nâng cao chất lượng phục vụ người dân và doanh nghiệp.
Ngày nay, các cơ quan nhà nước ngày càng thu thập được khối lượng lớn dữ liệu từ nhiều nguồn như điều tra thống kê, tiếp nhận, xử lý dịch vụ trực tuyến,... các dữ liệu này theo thời gian sẽ trở thành kho dữ liệu lớn của các cơ quan. Việc khai thác sử dụng dữ liệu lớn trong cơ quan nhà nước sẽ ngày càng có vai trò quan trọng phục vụ cho hoạt động của cơ quan nhà nước, một số lợi ích chính như: Hỗ trợ việc ra quyết định nhanh hơn; Nâng cao kết quả công việc; Xác định và giảm thiểu sự không hiệu quả; Nâng cao việc phục vụ và tính minh bạch. Việc xử lý, chia sẻ dữ liệu lớn cũng cho phép các cơ quan cung cấp thông tin như một dịch vụ để phục vụ người dân (ví dụ như thông tin về thuế thu nhập, số liệu điều tra thống kê, dữ liệu về thời tiết...).
Nhìn chung, đối với các số liệu có dung lượng lớn như số liệu viễn thám radar, vệ tinh, các dữ liệu sản phẩm mô hình hiện thời đang được lưu trữ dưới dạng file nhị phân có cấu trúc, file ảnh. Tuy nhiên hiện thời chưa có metadata chung để quản lý toàn bộ các số liệu có dung lượng lớn này gây ảnh hưởng đến quá trình tìm kiếm, sử dụng lại các dữ liệu trong quá khứ. Hơn nữa hiện nay các sản phẩm dữ liệu vệ tinh và mô hình với dung lượng rất lớn nên chỉ có các đơn vị ở trung ương (Trung tâm Dự báo khí tượng thủy văn quốc gia, Trung tâm Thông tin và Dữ liệu khí tượng thủy văn) mới khai thác được hết toàn bộ số liệu còn đối với 9 Đài KTTV khu vực và 54 Đài KTTV tỉnh thì việc khai thác chia sẻ dữ liệu chung chỉ mới tập trung ở dưới dạng ảnh, được công khai hóa lên trên trang thông tin điện tử, chưa thể can thiệp trực tiếp vào khai thác số liệu theo yêu cầu của nghiệp vụ dự báo.
Xuất phát từ thực tiễn đó, Cơ quan chủ trì Trung tâm Kiểm định sản phẩm công nghệ thông tin cùng phối hợp với Chủ nhiệm đề tài Cử nhân Vũ Anh Tú thực hiện “Nghiên cứu giải pháp kỹ thuật lưu trữ, quản lý và phân tích dữ liệu lớn (Big Data) - Thử nghiệm đối với dữ liệu khí tượng thủy văn” với mục tiêu: Xây dựng giải pháp kỹ thuật lưu trữ, quản lý và phân tích dữ liệu lớn; Thử nghiệm lưu trữ, quản lý và phân tích dữ liệu khí tượng thủy văn, sử dụng Big Data.
Các nội dung nghiên cứu, triển khai phù hợp với kế hoạch thực hiện được phê duyệt, đưa ra các kết quả nghiên cứu về tổng quan giải pháp dữ liệu lớn, kỹ thuật cơ bản đối với giải pháp dữ liệu lớn, các giải pháp và yếu tố đảm bảo vận hành của hệ thống dữ liệu lớn, đề xuất giải pháp công nghệ dữ liệu lớn phục vụ lưu trữ, phân tích và cung cấp dữ liệu vệ tinh himawari 8/9 và xây dựng phần mềm thử nghiệm giải pháp dữ liệu lớn trong lưu trữ, phân tích và cung cấp dữ liệu vệ tinh himawari 8/9 (Xây dựng phần mềm thử nghiệm khai thác tập trung dữ liệu vệ tinh himawari 8/9). Các nội dung nghiên cứu liên tục được cập nhật, bổ sung. Đồng thời mở rộng phạm vi nghiên cứu, ngoài khuôn khổ được phê duyệt của thuyết minh, đáp ứng sâu hơn đối với bài toán chuyên ngành KTTV, đưa ra khả năng ứng dụng vào thực tiễn có tính khả thi hơn.
Triển khai, thử nghiệm đã bám sát mô hình đề xuất kiến trúc, giải pháp kỹ thuật lưu trữ, quản lý và phân tích dữ liệu lớn đối với dữ liệu vệ tinh Himawari thuộc lĩnh vực khí tượng thủy văn. Việc thử nghiệm hệ thống đã chứng tỏ được tính thực tế của mô hình đề xuất, cụ thể: Giải pháp HDFS lưu trữ một lượng dữ liệu thô đủ lớn trong vòng gần 01 tháng (với 2.4 TB dữ liệu), giải pháp cơ sở dữ liệu Elasticsearch lưu trữ dữ liệu metadata, dữ liệu tổ chức quản lý theo tọa độ, khả năng lưu trữ tiếp tục mở rộng với lượng dữ liệu lớn hơn, được thu thập theo thời gian; Giải pháp YARN, Apache Spark, Zookeeper phục vụ việc xử lý và phân tích dữ liệu; Giải pháp Elasticsearch hỗ trợ khả năng lưu trữ dữ liệu sau khi xử lý hoặc phân tích và cung cấp khả năng truy vấn, khai thác dữ liệu; Công cụ Kibana trực quan hóa dữ liệu Himawari; Giải pháp hiển thị ảnh vệ tinh, quản lý thông tin meta data dữ liệu Himawari.
Giải pháp triển khai, thử nghiệm đã đáp ứng các yêu cầu theo thuyết minh đề ra. Bên cạnh đó, mở rộng thêm các chức năng để phù hợp và tăng tính khả thi khi ứng dụng vào thực tế đối với chuyên ngành KTTV như: xử lý dữ liệu Himawari thành dữ liệu được tổ chức, trong thời gian dài, để có thể lưu trữ, truy vấn một cách nhanh chóng dữ liệu, làm đầu vào cho các bài toán dự báo, nghiệp vụ chuyên ngành KTTV; trực quan hóa dữ liệu Himawari; Khả năng truy vấn, khai thác dữ liệu Himawari sau khi được xử lý, tổ chức theo meta data, theo tọa độ...
Đã thực hiện kiểm tra, thử nghiệm các chức năng của Phần mềm đánh giá tác động trên mạng xã hội trong công tác dự báo khí tượng thủy văn và mở rộng đối với một số lĩnh vực tài nguyên và môi trường ứng dụng giải pháp dữ liệu lớn (SMM) so với bản chào giá của đơn vị cung cấp. Kết quả kiểm tra, thử nghiệm đã phản ánh được đầy đủ chức năng và khả năng hoạt động của các chức năng mà đơn vị cung cấp đã đề xuất trong bản chào giá.
Có thể tìm đọc báo cáo kết quả nghiên cứu (mã số 18033/2020) tại Cục Thông tin khoa học và công nghệ quốc gia.
Theo https://www.vista.gov.vn/

Xem thêm

Tổng số lượt truy cập :
  • 1
  • 4
  • 2
  • 2
  • 5
  • 1
  • 1
  • 5