Big Data - Dữ liệu lớn - Introduction

Xin kính chào huynh đệ đồng công ty, lâu lắm rồi tại hạ không hạ bàn phím viết bài trên story, trong lòng day dứt khôn nguôi, nhưng ngặt một nỗi tình hình virus covid đang hoành hành khắp nơi, người người nhà nhà kêu thán, rồi cuối tháng, hóa đơn tiền điện, nước tăng không phanh làm cho lòng người ai oán. Tại hạ thân là nam nhân Đại Việt, cũng vì đại sự chống dịch mà hai tháng này ẩn tu, giãn cách xã hội. Nay thấy tình hình trong ngoài đã trong tầm kiểm soát, mới quay lại giang hồ với loạt bài viết " trảm phong đại pháp " - chém gió hùng hồn, mong huynh đệ, tỷ muội khắp công ty nhiệt liệt ủng hộ, ai có tiền quyên tiền, ai có vàng quyên vàng, ai không tiền không vàng thì xin ủng hộ 1 like và 1 comment.

Lan man hơi sâu, bài viết đầu tiên đánh dấu sự quay trở lại của em với series về dữ liệu lớn ( big data ) và sản phẩm ứng dụng của công nghệ này của Magestore là Retail Assistant là tổng quan về Big data hay nói cách khác " Thế nào là dữ liệu lớn ( Big Data ) "

Mọi người có thể tìm đọc rất nhiều nguồn từ Google về dữ liệu lớn, ở đây em chỉ giới thiệu theo những gì mà em học được trong quá trình tìm hiểu về nó.

Trong rất nhiều các định nghĩa khác nhau thì có vẻ định nghĩa của Google bao phủ tất cả các ý “Big data refers to data that would typically be too expensive to store, manage, and analyze using traditional (relational and/or monolithic) database systems. Usually, such systems are cost-inefficient because of their inflexibility for storing unstructured data (such as images, text, and video), accommodating “high-velocity” (real-time) data, or scaling to support very large (petabyte-scale) data volumes”, còn hiểu một cách đơn giản thì Big Data là khái niệm đề cập đến việc thu thập, lưu trữ, xử lý “dữ liệu lớn” mà các hệ thống truyền thống không thể xử lý được.

Theo truyền thống, Big data = 3V ( Volume, Variety, Velocity ), đến SAS định nghĩa Big Data = 5V (3V + Variability, Veracity), rồi khi dữ liệu bắt đầu trở thành “mỏ vàng”, thành nguồn doanh thu mới của mỗi doanh nghiệp thì Big Data = 6V (5V + Value)

Đặc tính của Big Data :

  • Volume : khối lượng dữ liệu được tạo ra, lưu trữ và xử lý. Bao nhiêu thì là lớn? Ít nhất nó nên được tính bằng hàng tram Terabyte, còn thông thường thì nó là Petabyte hoặc Exabyte, thậm chí Zettabyte. Một số ví dụ: Facebook tạo ra khoảng 500TB dữ liệu mỗi ngày, con số này ở Twitter là khoảng 8TB.

  • Velocity : tốc độ dữ liệu được tạo ra. Câu hỏi cũ, bao nhiêu thì là lớn? Câu trả lời thì rất đa dạng, vì nó phụ thuộc vào loại dữ liệu mà bạn đang xử lý, nhưng có thể lấy một vài ví dụ trực quan của các tên tuổi lớn như 90 triệu bức ảnh được upload lên Facebook mỗi ngày, con số cho Twitter là 500 triệu tweets được post, 0.4 triệu giờ video được upload lên Youtube hay 3.5 tỷ lượt tìm kiếm được thực hiện mỗi ngày trên Google.

  • Variety : tính đa dạng của dữ liệu. Cái này chắc dễ hiểu rồi, Big Data là không ngán dạng nào, từ dữ liệu có cấu trúc (structure) như các bảng nơi có hàng và cột trong cơ sở dữ liệu quan hệ RDBMS hay bảng tính excel; đến dữ liệu phi cấu trúc (unstructured) như văn bản (text), ảnh (pictures), video, audio, …; và thậm chí cả dữ liệu bán cấu trúc (semi-structure) như file json hay file xml.

  • Variability : tính biến thiên của dữ liệu phản ánh sự không nhất quán trong dữ liệu, đặc biệt là trong xử lý ngôn ngữ tự nhiên, cùng một từ vựng nhưng trong các ngữ cảnh khác nhau nó sẽ mang các ý nghĩa khác nhau. Tính biến thiên của dữ liệu cũng còn được thể hiện qua sự biến thiên về kích thước và tốc độ dữ liệu được sinh ra, do dữ liệu được thu thập từ nhiều nguồn khác nhau.

  • Veracity : mức độ tin cậy của dữ liệu. Đặc tính này đi ngược chiều với các đặc tính khác của Big Data, khi khối lượng dữ liệu ngày càng tăng, tính đa dạng của dữ liệu ngày càng phong phú và tính biến thiên của dữ liệu ngày càng lớn thì mức độ tin cậy của dữ liệu ngày càng giảm xuống.

  • Value : giá trị của dữ liệu. Sẽ không thể nhắc đến Big Data nếu không thể get value từ dữ liệu. Hàng loạt các công ty đã khai thác “mỏ vàng mới” dữ liệu và phát triển mạnh mẽ: Google, Facebook, Amazon, …

Theo thời gian, chắc chắn sẽ còn có thể có nhiều đặc tính của Big data được định nghĩa thêm, có thể là 7V, 8B hay thậm chí là 10V nữa, nhưng ở thời điểm viết bài này, em nghĩ con số 6 khá là " lộc "

3 Likes