Quay lại Blog
Data GlossaryCập nhật: 15 tháng 11, 202518 phút đọc

Trang Thuật Ngữ Dữ Liệu (Data Glossary)

Giải thích các thuật ngữ và khái niệm quan trọng trong ngành khoa học dữ liệu, kỹ thuật dữ liệu và phân tích kinh doanh, từ A-Z một cách đơn giản và dễ hiểu.

CT

Carptech Team

Data Platform Experts

Illustration of data-related icons and typography forming a glossary - A to Z data terms.
#Data Glossary#Data Terms#Data Analytics#Data Engineering#Data Science

Trang Thuật ngữ Dữ liệu (Data Glossary)

Chào mừng bạn đến với trang thuật ngữ dữ liệu của Carptech. Tại đây, chúng tôi giải thích các khái niệm và thuật ngữ quan trọng nhất trong ngành một cách đơn giản và dễ hiểu, giúp bạn tự tin hơn trên hành trình làm việc với dữ liệu.

Điều hướng nhanh: A | B | C | D | E | F | G | H | I | K | L | M | N | O | P | R | S | T


A

A/B Testing

A/B Testing là một phương pháp thử nghiệm mà trong đó hai phiên bản (A và B) của một yếu tố (ví dụ: một nút bấm, một tiêu đề) được so sánh với nhau để xác định phiên bản nào hoạt động hiệu quả hơn trong việc đạt được một mục tiêu cụ thể (ví dụ: tỷ lệ nhấp chuột).

AI (Artificial Intelligence - Trí tuệ nhân tạo)

AI là một lĩnh vực rộng lớn của khoa học máy tính, tập trung vào việc tạo ra các cỗ máy thông minh có khả năng thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người. Machine Learning (ML) là một nhánh con của AI.

  • Tại sao nó quan trọng? AI đang thay đổi mọi ngành công nghiệp, từ việc tự động hóa các quy trình đến việc tạo ra các sản phẩm và dịch vụ hoàn toàn mới.
  • Đọc thêm: From BI to AI: Evolution của Analytics Maturity

Attribution Modeling (Mô hình phân bổ)

Attribution Modeling là quá trình gán giá trị hoặc "tín dụng" cho các điểm chạm (touchpoints) khác nhau trong hành trình của khách hàng để xác định kênh marketing nào có đóng góp nhiều nhất vào việc tạo ra chuyển đổi.


B

Business Intelligence (BI)

Business Intelligence (BI) bao gồm các công nghệ, ứng dụng và quy trình để thu thập, tích hợp, phân tích và trình bày thông tin kinh doanh. Mục tiêu chính của BI là giúp đưa ra các quyết định kinh doanh tốt hơn.

  • Tại sao nó quan trọng? BI biến dữ liệu thô thành các insight hữu ích thông qua các báo cáo và dashboard, giúp các nhà lãnh đạo theo dõi hiệu suất và xác định các xu hướng.

C

CDC (Change Data Capture)

Change Data Capture (CDC) là một tập hợp các kỹ thuật được sử dụng để xác định và theo dõi những thay đổi (INSERT, UPDATE, DELETE) trong dữ liệu nguồn, sau đó chuyển tiếp những thay đổi đó đến hệ thống đích trong thời gian thực.

  • Tại sao nó quan trọng? CDC là nền tảng cho các pipeline dữ liệu real-time, cho phép đồng bộ hóa cơ sở dữ liệu và xây dựng các ứng dụng phân tích tức thời mà không làm quá tải hệ thống nguồn.
  • Đọc thêm: Real-time Data Pipeline: Kafka, CDC, và Streaming Architecture

CDP (Customer Data Platform)

Một Customer Data Platform (CDP) là một hệ thống phần mềm thu thập và hợp nhất dữ liệu khách hàng từ nhiều nguồn khác nhau để tạo ra một cái nhìn 360 độ, duy nhất và nhất quán về mỗi khách hàng.

Churn (Tỷ lệ rời bỏ)

Churn là hiện tượng khách hàng ngừng sử dụng sản phẩm hoặc dịch vụ của một công ty. Churn rate (tỷ lệ churn) thường được tính bằng phần trăm khách hàng rời đi trong một khoảng thời gian nhất định.

  • Tại sao nó quan trọng? Giữ chân một khách hàng hiện tại thường rẻ hơn 5-25 lần so với việc tìm kiếm một khách hàng mới. Việc theo dõi và dự đoán churn là cực kỳ quan trọng để tăng trưởng bền vững.
  • Đọc thêm: Customer Churn Prediction: End-to-End ML Project Guide

Cohort Analysis (Phân tích theo nhóm)

Cohort Analysis là một phương pháp phân tích hành vi người dùng bằng cách chia họ thành các nhóm (cohorts) dựa trên các đặc điểm hoặc thời gian chung (ví dụ: tất cả người dùng đăng ký trong tháng 1). Sau đó, hành vi của các nhóm này được theo dõi theo thời gian.

  • Tại sao nó quan trọng? Giúp hiểu rõ hơn về mức độ giữ chân (retention), giá trị vòng đời (LTV) và tác động của các thay đổi sản phẩm lên các nhóm người dùng khác nhau.
  • Đọc thêm: Cohort Analysis: Hiểu Customer Behavior theo Thời Gian

D

Data Catalog (Danh mục dữ liệu)

Data Catalog là một bản инвентаризация (inventory) có tổ chức của tất cả các tài sản dữ liệu trong một tổ chức. Nó sử dụng metadata để giúp các chuyên gia dữ liệu tìm kiếm, hiểu, và tin tưởng vào dữ liệu mà họ cần.

  • Tại sao nó quan trọng? Trong các công ty lớn, việc tìm đúng dữ liệu có thể chiếm tới 80% thời gian của một nhà phân tích. Data Catalog giải quyết vấn đề này, tăng năng suất và thúc đẩy văn hóa self-service.
  • Đọc thêm: Data Catalog: Democratizing Data Discovery

Data Governance (Quản trị dữ liệu)

Data Governance là một tập hợp các quy trình, vai trò, chính sách, tiêu chuẩn và số liệu để đảm bảo việc quản lý và sử dụng hiệu quả thông tin trong một tổ chức.

Data Lake (Hồ dữ liệu)

Data Lake là một kho lưu trữ trung tâm cho phép bạn lưu trữ tất cả dữ liệu có cấu trúc và phi cấu trúc ở mọi quy mô. Dữ liệu có thể được lưu trữ ở định dạng thô mà không cần phải định hình cấu trúc trước (schema-on-read).

  • Tại sao nó quan trọng? Cung cấp sự linh hoạt tối đa để lưu trữ mọi loại dữ liệu với chi phí thấp, phục vụ cho các nhu cầu phân tích đa dạng, đặc biệt là Machine Learning.
  • Đọc thêm: Data Warehouse vs. Data Lake vs. Data Lakehouse

Data Lakehouse

Data Lakehouse là một kiến trúc dữ liệu mới kết hợp những ưu điểm tốt nhất của Data Warehouse (quản lý, hiệu suất) và Data Lake (chi phí thấp, linh hoạt). Nó cho phép thực thi các giao dịch ACID và quản lý dữ liệu trực tiếp trên Data Lake.

Data Lineage (Dòng chảy dữ liệu)

Data Lineage cung cấp một bản đồ về hành trình của dữ liệu, cho thấy dữ liệu bắt nguồn từ đâu, nó đã trải qua những biến đổi nào, và nó đi đến đâu.

Data Mesh

Data Mesh là một kiến trúc dữ liệu phi tập trung, trong đó quyền sở hữu và trách nhiệm về dữ liệu được trao cho các bộ phận nghiệp vụ (domains). Các domain này cung cấp dữ liệu của họ dưới dạng "sản phẩm" cho phần còn lại của tổ chức.

  • Tại sao nó quan trọng? Giải quyết vấn đề "nút thắt cổ chai" của các đội ngũ data trung tâm trong các tổ chức lớn, giúp tăng tốc độ và sự linh hoạt.

Data Modeling (Mô hình hóa dữ liệu)

Data Modeling là quá trình tạo ra một biểu diễn trực quan hoặc một bản thiết kế (blueprint) về cách dữ liệu được tổ chức và liên kết với nhau trong một hệ thống cơ sở dữ liệu. Các mô hình phổ biến bao gồm Star Schema, Snowflake Schema và Data Vault.

Data Platform (Nền tảng dữ liệu)

Data Platform là một hệ thống tích hợp thu thập, lưu trữ, xử lý và cung cấp dữ liệu từ nhiều nguồn khác nhau để phục vụ cho các nhu cầu phân tích, báo cáo và ứng dụng AI/ML trong toàn tổ chức.

  • Tại sao nó quan trọng? Nó phá vỡ các "data silos", tạo ra một "nguồn sự thật duy nhất" (Single Source of Truth), và là nền tảng cho một văn hóa ra quyết định dựa trên dữ liệu.
  • Đọc thêm: Data Platform là gì? Tại sao doanh nghiệp cần có?

Data Silos (Ốc đảo dữ liệu)

Data Silos là tình trạng dữ liệu bị "nhốt" trong các hệ thống, phòng ban hoặc khu vực địa lý riêng biệt, không thể truy cập hoặc chia sẻ với các bộ phận khác trong cùng một tổ chức.

  • Tại sao nó quan trọng? Data silos là một trong những rào cản lớn nhất đối với việc chuyển đổi số, gây ra sự thiếu nhất quán, lãng phí và cản trở việc có được cái nhìn toàn diện về doanh nghiệp.
  • Đọc thêm: Data Silos: Con Rồng Cản Trở Tăng Trưởng

Data Warehouse (Kho dữ liệu)

Data Warehouse là một hệ thống cơ sở dữ liệu được thiết kế đặc biệt để lưu trữ và phân tích dữ liệu lịch sử từ nhiều nguồn khác nhau. Dữ liệu trong warehouse thường được làm sạch, chuyển đổi và có cấu trúc (schema-on-write) để tối ưu cho các truy vấn BI.

  • Tại sao nó quan trọng? Là "trái tim" của hệ thống BI truyền thống, cung cấp dữ liệu đáng tin cậy cho các báo cáo quản trị và phân tích kinh doanh.
  • Đọc thêm: 5 Dấu Hiệu Cần Data Warehouse

dbt (data build tool)

dbt là một công cụ chuyển đổi dữ liệu cho phép các nhà phân tích và kỹ sư dữ liệu chuyển đổi, kiểm tra và tài liệu hóa dữ liệu trong data warehouse chỉ bằng cách sử dụng câu lệnh SQL.

  • Tại sao nó quan trọng? dbt mang các best practice của ngành phát triển phần mềm (như version control, testing, CI/CD) vào thế giới phân tích, giúp xây dựng các quy trình dữ liệu đáng tin cậy và dễ bảo trì.

E

ELT (Extract, Load, Transform)

ELT là một phương pháp tích hợp dữ liệu hiện đại, trong đó dữ liệu được trích xuất (Extract) từ nguồn, tải (Load) trực tiếp vào data warehouse/lakehouse, và sau đó mới được chuyển đổi (Transform) tại đích bằng sức mạnh của warehouse.

  • Tại sao nó quan trọng? ELT tận dụng sức mạnh của các data warehouse trên cloud, mang lại sự linh hoạt và tốc độ cao hơn so với ETL truyền thống.
  • Đọc thêm: ETL vs ELT: Paradigm Shift trong Data Engineering

ETL (Extract, Transform, Load)

ETL là một phương pháp tích hợp dữ liệu truyền thống, trong đó dữ liệu được trích xuất (Extract) từ nguồn, được chuyển đổi (Transform) trên một máy chủ trung gian, và sau đó mới được tải (Load) vào data warehouse.


F

Feature Store

Một Feature Store là một hệ thống trung tâm để lưu trữ, truy xuất, quản lý và chia sẻ các "đặc trưng" (features) được sử dụng trong các mô hình Machine Learning.


G

GDPR (General Data Protection Regulation)

GDPR là quy định về bảo vệ dữ liệu và quyền riêng tư của Liên minh Châu Âu (EU). Nó áp dụng cho bất kỳ tổ chức nào xử lý dữ liệu cá nhân của công dân EU, bất kể tổ chức đó ở đâu.

  • Tại sao nó quan trọng? GDPR đã đặt ra một tiêu chuẩn toàn cầu về quyền riêng tư dữ liệu và có ảnh hưởng lớn đến các luật tương tự ở các quốc gia khác, bao gồm cả PDPA của Việt Nam.

I

Infrastructure as Code (IaC)

Infrastructure as Code (IaC) là việc quản lý và cung cấp hạ tầng (máy chủ, cơ sở dữ liệu, mạng) thông qua các file mã nguồn có thể đọc được bằng máy, thay vì cấu hình thủ công.

  • Tại sao nó quan trọng? Giúp tự động hóa, giảm lỗi, tăng tốc độ triển khai và đảm bảo sự nhất quán giữa các môi trường (dev, staging, production).
  • Đọc thêm: Infrastructure as Code cho Data Platform

K

KPI (Key Performance Indicator)

KPI là một giá trị có thể đo lường được, cho thấy một công ty đang đạt được các mục tiêu kinh doanh chính của mình hiệu quả như thế nào.

  • Tại sao nó quan trọng? KPIs giúp các tổ chức tập trung vào những gì quan trọng nhất, theo dõi tiến độ và đưa ra các quyết định dựa trên hiệu suất thực tế.

L

LTV (Lifetime Value - Giá trị vòng đời)

LTV (còn gọi là CLV - Customer Lifetime Value) là một chỉ số dự đoán tổng lợi nhuận ròng mà một công ty có thể kiếm được từ toàn bộ mối quan hệ với một khách hàng.

  • Tại sao nó quan trọng? Giúp xác định giá trị của khách hàng, từ đó đưa ra quyết định về chi phí thu hút khách hàng mới (CAC) và các nỗ lực giữ chân khách hàng.

M

Machine Learning (ML - Học máy)

Machine Learning là một nhánh của AI, tập trung vào việc sử dụng dữ liệu và thuật toán để cho phép máy tính "học" và cải thiện hiệu suất của chúng trong một nhiệm vụ cụ thể mà không cần được lập trình một cách rõ ràng.

MLOps (Machine Learning Operations)

MLOps là một tập hợp các thực hành kết hợp Machine Learning, DevOps và Data Engineering, nhằm mục đích triển khai và duy trì các mô hình ML trong môi trường production một cách đáng tin cậy và hiệu quả.

  • Tại sao nó quan trọng? Giải quyết thách thức lớn nhất trong ngành ML: làm thế nào để đưa một mô hình từ notebook của data scientist đến một sản phẩm thực tế phục vụ hàng triệu người dùng.
  • Đọc thêm: MLOps: Production ML tại quy mô Doanh Nghiệp

Modern Data Stack

Modern Data Stack là một bộ công cụ dựa trên cloud, thường theo mô hình ELT, được sử dụng để xây dựng các data platform hiện đại. Các thành phần phổ biến bao gồm Fivetran/Airbyte (Extract/Load), Snowflake/BigQuery (Warehouse), dbt (Transform), và Looker/Tableau (BI).

  • Tại sao nó quan trọng? Cung cấp một cách tiếp cận linh hoạt, có khả năng mở rộng và hiệu quả về chi phí để xây dựng các hệ thống dữ liệu so với các giải pháp truyền thống.
  • Đọc thêm: Modern Data Stack 2025: Tools và Best Practices

N

North Star Metric (NSM)

North Star Metric là một chỉ số duy nhất mà một công ty tập trung vào để thúc đẩy tăng trưởng dài hạn. Nó phản ánh tốt nhất giá trị cốt lõi mà sản phẩm mang lại cho khách hàng.


O

OEE (Overall Equipment Effectiveness)

OEE là một chỉ số tiêu chuẩn vàng trong ngành sản xuất, đo lường hiệu suất tổng thể của một thiết bị. Nó được tính bằng: Availability × Performance × Quality.


P

PDPA (Personal Data Protection Act)

PDPA là Nghị định 13/2023/NĐ-CP về Bảo vệ dữ liệu cá nhân tại Việt Nam. Nó đặt ra các quy tắc về cách các tổ chức phải thu thập, xử lý và bảo vệ dữ liệu cá nhân.

PII (Personally Identifiable Information)

PII là bất kỳ thông tin nào có thể được sử dụng để nhận dạng một cá nhân cụ thể, ví dụ như tên, số điện thoại, email, địa chỉ, số CMND/CCCD.


R

Real-time Analytics

Real-time Analytics là khả năng truy vấn và phân tích dữ liệu ngay khi nó được tạo ra, thường với độ trễ dưới giây hoặc vài giây.

  • Tại sao nó quan trọng? Cho phép các doanh nghiệp phản ứng tức thì với các sự kiện, ví dụ như phát hiện gian lận, cá nhân hóa trải nghiệm người dùng, hoặc giám sát hoạt động vận hành.

ROI (Return on Investment)

ROI là một chỉ số hiệu suất được sử dụng để đánh giá hiệu quả hoặc lợi nhuận của một khoản đầu tư. Nó được tính bằng: (Lợi nhuận ròng / Chi phí đầu tư) x 100%.


S

Self-Service Analytics

Self-Service Analytics là một hình thức của business intelligence, trong đó người dùng nghiệp vụ (business users) được trao quyền để tự truy vấn, phân tích dữ liệu và tạo báo cáo của riêng họ mà không cần sự can thiệp của đội ngũ IT hoặc data.

  • Tại sao nó quan trọng? Giúp giảm tải cho đội ngũ data, tăng tốc độ ra quyết định và xây dựng một văn hóa dữ liệu trong toàn tổ chức.
  • Đọc thêm: Self-Service Analytics: Giải Phóng Data Team

Serverless

Serverless là một mô hình phát triển và thực thi ứng dụng trên cloud, trong đó nhà cung cấp cloud chịu trách nhiệm hoàn toàn về việc quản lý hạ tầng. Người dùng không cần quan tâm đến máy chủ, và chỉ trả tiền cho thời gian tính toán thực tế mà họ sử dụng.

Star Schema (Lược đồ hình sao)

Star Schema là một mô hình dữ liệu phổ biến trong data warehouse, bao gồm một bảng trung tâm lớn gọi là "bảng fact" (chứa các số liệu) và các bảng nhỏ hơn gọi là "bảng dimension" (chứa các thuộc tính mô tả) kết nối với nó, tạo thành hình dạng giống như một ngôi sao.

  • Tại sao nó quan trọng? Cấu trúc này đơn giản, dễ hiểu và được tối ưu hóa cho hiệu suất truy vấn nhanh, rất phù hợp cho các công cụ BI.

Có câu hỏi về Data Platform?

Đội ngũ chuyên gia của Carptech sẵn sàng tư vấn miễn phí về giải pháp phù hợp nhất cho doanh nghiệp của bạn. Đặt lịch tư vấn 60 phút qua Microsoft Teams hoặc gửi form liên hệ.

✓ Miễn phí 100% • ✓ Microsoft Teams • ✓ Không cam kết dài hạn