Menu

9 Từ Thông Dụng Trong Phân Tích Dữ Liệu 2023

Mặc dù bất kỳ chủ đề nghiên cứu mới nào cũng đi kèm với các thuật ngữ mới để học, từ Big Data tới Machine Learning, Algorithms và Artificial Intelligence, Data Analytics tràn ngập các từ thông dụng. Nhưng tất cả chúng có ý nghĩa gì?
Trong bài đăng này, mình sẽ xem xét 9 từ thông dụng phân tích dữ liệu mà bạn có thể bắt gặp và ý nghĩa thực sự của chúng.

1. Digital dust

Trong thế giới trực tuyến, mọi hành động đều tạo ra Digital dust (bụi kỹ thuật số). Digital dust không là gì khác ngoài dấu vết để lại sau dữ liệu mà chúng ta chia sẻ — có thể là ảnh, video, âm thanh, văn bản, reels, v.v. Sự gia tăng của các thiết bị thông minh đang để lại Digital dust dưới dạng sở thích, cảm xúc và hành vi của người dùng.

2. X Analytics

X Analytics, một thuật ngữ do công ty nghiên cứu Gartner đặt ra, nó là khả năng chạy bất kỳ loại phân tích nào trên tất cả dữ liệu có cấu trúc và phi cấu trúc ( structured and unstructured data) của một tổ chức, bất kể dữ liệu đó nằm ở đâu hoặc ở định dạng nào. X có thể là dữ liệu văn bản, âm thanh, video, hình ảnh, v.v. phổ biến trong phân tích nội dung, chăm sóc sức khỏe và truyền thông xã hội. X Analytics trong thế giới ngày nay giúp đẩy nhanh quá trình chuyển đổi kỹ thuật số cho doanh nghiệp.

3. Data Fabric

Data Fabric là một thuật ngữ mới nổi cho thiết kế quản lý dữ liệu. Mình hiểu Data Fabric là một môi trường gắn kết cho phép người dùng truy cập, tích hợp, triển khai, phân tích và truyền đạt dữ liệu cùng một lúc. Data Fabric có thể bao gồm một môi trường nhiều đám mây, trong các nền tảng đám mây xử lý các quy trình dữ liệu khác nhau. Giả sử, AWS quản lý quá trình nhập dữ liệu và Azure giám sát quá trình chuyển đổi và tiêu thụ dữ liệu. Và, bạn thậm chí có thể thêm Tableau để đưa dữ liệu theo ngữ cảnh vào sử dụng để hoàn thiện kết cấu.

4. Data Marketplace

Nhận thấy nhu cầu ngày càng tăng đối với dữ liệu của third-party. Các doanh nghiệp đang tìm kiếm thông tin chi tiết tiềm ẩn từ mọi ngóc ngách — đó có thể là dữ liệu từ cookie mà bạn chấp nhận trên trang web, dữ liệu nhân khẩu học, nghiên cứu, v.v. Data Marketplace giống với nền tảng thương mại điện tử dành cho các công ty cung cấp và sử dụng dữ liệu có tính phí như thị trường dữ liệu cá nhân, B2B và IoT. Các công ty như Snowflake, Microsoft Azure và Salesforce là một số công ty hàng đầu trong Data Marketplace.

5. Data Governance

Khi các doanh nghiệp tiếp tục bổ sung ngày càng nhiều hệ thống và nguồn dữ liệu mới, Data Governance (quản trị dữ liệu) là điều cốt yếu để đảm bảo dữ liệu của tổ chức được an toàn, riêng tư, chính xác và có thể truy cập được. Nói một cách đơn giản, Data Governance thiết lập các nhóm cách tiếp cận để quản lý dữ liệu trong vòng đời dữ liệu, từ khi thu thập đến xử lý theo cùng một cách thức. Nó bao gồm thuật ngữ dữ liệu, quy trình phải tuân theo, quy tắc bảo mật và khả năng sử dụng.

6. Data Democratization

Data Democratization cung cấp quyền truy cập bình đẳng vào các nguồn lực mà họ cần sử dụng một cách hiệu quả bất kể vai trò của họ trong hệ sinh thái. Trong dữ liệu, dân chủ hóa là cung cấp quyền truy cập vào dữ liệu. Có thể nói rằng một tổ chức có Data Democratization khi tất cả nhân viên và bên liên quan đều có thể truy cập tất cả dữ liệu của tổ chức bất kể nền tảng kỹ thuật của họ (không tính đến các quy tắc về quyền riêng tư do tổ chức đặt ra). Nói một cách đơn giản, Data Democratization giúp cho thông tin kỹ thuật số có thể truy cập được đối mọi thành viên trong tổ chức kể cả người dùng non-tech.

7. Data Catalog

Khi các doanh nghiệp tiếp tục mở rộng kích thước của tập dữ liệu thì điều quan trọng là các nhóm dữ liệu phải sắp xếp tất cả thông tin để quản lý được hiệu quả. Để phục vụ mục đích này, các Data Catalog (danh mục dữ liệu) đã ra đời, nó cung cấp cho người dùng một chế độ xem bao quát, duy nhất và khả năng hiển thị sâu hơn vào tất cả dữ liệu, không chỉ từng kho lưu trữ dữ liệu tại một thời điểm. Nói một cách đơn giản, danh mục dữ liệu là kho lưu trữ có tổ chức, sử dụng metadata để giúp tổ chức quản lý dữ liệu. Nó cũng giúp các chuyên gia dữ liệu thu thập, sắp xếp, truy cập và làm giàu metadata nhằm hỗ trợ việc khám phá và quản trị dữ liệu.

8. Data Literacy

Gartner định nghĩa Data Literacy (kiến thức dữ liệu) là khả năng đọc, viết và giao tiếp dữ liệu trong ngữ cảnh, bao gồm hiểu biết về nguồn và cấu trúc dữ liệu, các phương pháp và kỹ thuật phân tích được áp dụng cũng như khả năng mô tả usecase, ứng dụng và giá trị kết quả và đồng thời có thể truyền đạt thông tin chi tiết chính xác về dữ liệu (diễn giải trực quan hóa dữ liệu) cho stakeholders.

9. Data Agility

Data Agility (Tính linh hoạt của dữ liệu) có thể được định nghĩa là khả năng thực hiện các thay đổi đơn giản, robust và nhanh chóng đối với các bước của quy trình khi dữ liệu được phân tích. Đối với các doanh nghiệp, việc phiên dịch dữ liệu ở định dạng hợp lý cho các stakeholders là rất quan trọng. Data Agility giúp các nhà phân tích và chuyên gia tư vấn dữ liệu đáp ứng nhu cầu dữ liệu của doanh nghiệp với tốc độ, tính linh hoạt và độ tin cậy ở quy mô lớn, bất kể cơ sở hạ tầng dữ liệu cơ bản (hybrid cloud, on-premise data, v.v.)

Reference:

Desai, R. (2023, January 6). 13 Data Buzzwords You Need To Know in 2023 - Towards Data Science. Medium; Towards Data Science. https://towardsdatascience.com/13-data-buzzwords-you-need-to-know-in-2023-87d8d908e5b6

Top 17 Data Buzzwords You Should Know in 2023. (2022, December 7). CareerFoundry. https://careerfoundry.com/en/blog/data-analytics/data-buzzwords-explained/