Sai lầm phổ biến nhất khi xây dựng data platform là gì?

Sai lầm phổ biến nhất là đầu tư vào công nghệ mà không có bài toán kinh doanh rõ ràng. Nhiều doanh nghiệp bắt đầu bằng việc chọn công nghệ (Spark, Kafka, Data Lake) trước khi xác định vấn đề cần giải quyết, dẫn đến overengineering và lãng phí ngân sách.

Tại sao data governance quan trọng ngay từ đầu dự án?

Data governance không phải là 'nice-to-have' mà là nền tảng của mọi data platform. Bỏ qua governance ngay từ đầu sẽ dẫn đến dữ liệu không nhất quán, mất niềm tin từ stakeholders, rủi ro compliance (PDPA), và chi phí sửa chữa sau này gấp nhiều lần chi phí làm đúng từ đầu.

Chi phí cloud vượt kiểm soát có phổ biến không?

Rất phổ biến. Theo khảo sát 2025, nhiều doanh nghiệp thấy chi phí cloud tăng gấp 5-7 lần so với dự kiến ban đầu. Nguyên nhân chính bao gồm: zombie resources không ai dùng, overprovisioning instances, queries không tối ưu, và thiếu data lifecycle policies.

Bao lâu thì data platform project có thể thấy ROI?

Thực tế cần 12-18 tháng để thấy ROI rõ ràng. Timeline điển hình: 3-4 tháng cho foundation, 5-6 tháng cho các dashboards production, 7-9 tháng cho business impact, và 10-12 tháng để ROI positive. Nếu ai hứa nhanh hơn, hãy skeptical.

Top 10 sai lầm khi xây dựng data platform năm 2025 (và cách tránh)

Trong ba năm vừa qua, đội ngũ Carptech đã đồng hành cùng hơn 20 doanh nghiệp Việt Nam trong hành trình xây dựng data platform. Chúng tôi đã chứng kiến những thành công vang dội: doanh nghiệp retail tăng 30% ROI marketing, công ty sản xuất tiết kiệm 2 triệu USD chi phí vận hành, startup fintech ra mắt sản phẩm nhanh hơn 50%.

Nhưng chúng tôi cũng đã thấy không ít dự án gặp khó khăn, thậm chí thất bại. Và điều đáng nói là: đa số các sai lầm đều có thể dự đoán và tránh được.

Trong bài viết này, chúng tôi tổng hợp 10 sai lầm phổ biến nhất khi xây dựng data platform mà các doanh nghiệp Việt Nam thường mắc phải trong năm 2025 - cùng với cách để tránh chúng. Đây không phải là lý thuyết sách vở, mà là những bài học đắt giá từ các dự án thực tế.

Sai lầm #1: Đầu tư vào công nghệ mà không có bài toán kinh doanh rõ ràng

Dấu hiệu nhận biết

"Chúng tôi muốn xây dựng data lake trên AWS S3 với Spark và Kafka real-time streaming."

Câu nói này nghe có vẻ ấn tượng trong buổi họp executive. Nhưng khi bạn hỏi: "Để giải quyết vấn đề kinh doanh gì?", câu trả lời thường là: "Ừm... để có thể phân tích dữ liệu tốt hơn."

Case study thực tế: Một công ty logistics với 500 nhân viên đầu tư 2 tỷ đồng xây dựng data lake với full suite công nghệ hiện đại. Sau 9 tháng triển khai, họ phát hiện ra: 80% nhu cầu báo cáo của họ có thể giải quyết bằng Google Sheets và vài dashboards Power BI đơn giản. Data lake trở thành một "cái hồ" chứa dữ liệu mà không ai sử dụng.

Tại sao lại sai?

Khi bạn bắt đầu bằng công nghệ thay vì bài toán:

Overengineering: Bạn xây hệ thống phức tạp hơn nhiều so với nhu cầu thực tế
Lãng phí ngân sách: Chi tiền cho infrastructure và license không cần thiết
Mất thời gian: Team dành 80% effort vào technical mà chỉ 20% vào business value
Khó đo lường thành công: Không có metrics rõ ràng để biết dự án có thành công hay không

Cách tránh

Bắt đầu từ bài toán kinh doanh cụ thể:

Xác định 3-5 use cases ưu tiên: "Giảm 20% churn rate khách hàng trong Q1" hoặc "Tối ưu 15% chi phí vận chuyển"
Tính toán ROI dự kiến: Nếu giảm được 20% churn, doanh nghiệp tiết kiệm được bao nhiêu?
Chọn công nghệ phù hợp với use case: Đừng dùng Kafka nếu bạn chỉ cần batch processing hàng ngày
Bắt đầu nhỏ, mở rộng sau: Proof of concept với 1-2 use cases trước, mở rộng khi đã có kết quả

Template câu hỏi để tự kiểm tra:

"Nếu data platform này thành công, kết quả kinh doanh cụ thể là gì?"
"Chúng ta đo lường thành công bằng metrics nào?"
"Nếu không có data platform, chúng ta đang mất bao nhiêu tiền/cơ hội?"

Best practice: Tại Carptech, chúng tôi luôn yêu cầu khách hàng định nghĩa ít nhất 3 use cases cụ thể với ROI dự kiến trước khi bắt đầu thiết kế kiến trúc.

Sai lầm #2: Bỏ qua data governance, dẫn đến dữ liệu hỗn loạn

Dấu hiệu nhận biết

Sau 6 tháng triển khai data warehouse, data analyst của bạn hỏi:

"Table user_transactions và transaction_users khác nhau thế nào?"
"Trường revenue trong table A khác với trường revenue trong table B tại sao lại chênh nhau 15%?"
"Ai là người sở hữu dataset này? Tôi có được phép dùng không?"

Case study thực tế

Một công ty fintech với 200,000 khách hàng không thiết lập data governance ngay từ đầu. Kết quả:

Có đến 4 định nghĩa khác nhau về "khách hàng hoạt động" trong các hệ thống
Báo cáo của team Marketing và team Finance về cùng một chỉ số nhưng chênh nhau 20%
CEO mất niềm tin vào dữ liệu, quay lại ra quyết định bằng "kinh nghiệm"
Tốn 8 tháng để "dọn dẹp" và standardize lại toàn bộ data

Theo IBM 2025, bad data gây mất trung bình $15 triệu/năm cho các doanh nghiệp. Nghiên cứu 2025 State of Data Quality Survey cho thấy data quality kém tiêu tốn trung bình 31% doanh thu của doanh nghiệp.

Tại sao lại sai?

Data governance không phải là "nice-to-have", mà là nền tảng của mọi data platform. Không có governance:

Mất lòng tin vào dữ liệu: Khi số liệu không nhất quán, stakeholders ngừng tin tưởng
Duplicate effort: Nhiều người làm cùng một việc vì không biết ai đã làm gì
Rủi ro compliance: Vi phạm GDPR, PDPA về bảo mật dữ liệu cá nhân
Chi phí bảo trì tăng vọt: Càng về sau càng khó sửa

Cách tránh

Thiết lập data governance ngay từ Sprint 1:

1. Data ownership rõ ràng

Mỗi dataset phải có một "data owner" chịu trách nhiệm về quality và definition
Ví dụ: Team Product làm chủ dữ liệu user behavior, team Finance làm chủ dữ liệu revenue

2. Business glossary

Tạo một "từ điển" chung cho các thuật ngữ kinh doanh
Ví dụ: "Monthly Active User" = user có ít nhất 1 transaction trong 30 ngày gần nhất

3. Data catalog

Triển khai công cụ data catalog (ví dụ: DataHub, Amundsen, Atlan)
Mỗi table/dataset phải có: description, owner, update frequency, sample queries

4. Access control

Định nghĩa rõ ai được phép truy cập dữ liệu gì (RBAC - Role-Based Access Control)
Dữ liệu nhạy cảm (PII) phải được mask hoặc encrypt

5. Data quality monitoring

Thiết lập data quality checks tự động (ví dụ: Great Expectations)
Alert khi phát hiện anomaly hoặc schema change

Tool recommendations:

Data catalog: DataHub (open-source), Atlan (commercial)
Data quality: Great Expectations, dbt tests, Soda
Lineage tracking: dbt docs, OpenLineage

Bài học: Một doanh nghiệp e-commerce từng nói với chúng tôi: "Chúng tôi đã tiết kiệm 2 tuần ở đầu dự án khi bỏ qua governance. Nhưng đã mất 6 tháng để sửa lại sau này."

Sai lầm #3: Coi nhẹ việc làm sạch và mô hình hóa dữ liệu

Dấu hiệu nhận biết

"Chúng tôi đã ingest được 200 data sources vào data lake rồi. Bây giờ chỉ cần analysts tự kéo dữ liệu ra dùng thôi."

Nghe có vẻ đơn giản, nhưng thực tế:

Analysts dành 70-80% thời gian để làm sạch và transform dữ liệu
Mỗi analyst viết một query khác nhau cho cùng một chỉ số
Báo cáo chạy chậm vì query trực tiếp raw data

Case study thực tế

Một công ty retail có data lake với 50TB dữ liệu raw từ website, mobile app, CRM, ERP. Nhưng:

Không có data modeling: Analysts phải join 15-20 tables để tạo một báo cáo đơn giản
Không có cleaning rules: 30% records có missing values hoặc invalid data
Query performance tệ: Dashboard mất 2-3 phút để load

Sau khi áp dụng data modeling (dimensional modeling với fact và dimension tables):

Query time giảm từ 2-3 phút xuống còn 3-5 giây
Analysts tiết kiệm được 60% thời gian làm báo cáo
Số liệu nhất quán giữa các teams

Tại sao lại sai?

"Raw data" không phải là "analysis-ready data". Nếu bạn dump raw data vào lake và kỳ vọng analysts tự xử lý:

Duplicate effort: Mỗi analyst tự viết logic cleaning riêng
Inconsistency: Kết quả phân tích không nhất quán giữa các teams
Performance issues: Query trực tiếp raw data rất chậm
Steep learning curve: Analysts mới mất tuần để hiểu schema phức tạp

Cách tránh

Xây dựng data modeling layer:

1. Áp dụng dimensional modeling

Fact tables: Chứa metrics và foreign keys (ví dụ: fact_orders, fact_transactions)
Dimension tables: Chứa descriptive attributes (ví dụ: dim_customers, dim_products)
Kết quả: Query đơn giản hơn, performance tốt hơn

2. Implement transformation pipeline với dbt

-- models/staging/stg_orders.sql
-- Làm sạch và chuẩn hóa raw data
with source as (
    select * from {{ source('raw', 'orders') }}
),
cleaned as (
    select
        order_id,
        customer_id,
        lower(trim(email)) as email,  -- Chuẩn hóa email
        cast(order_date as date) as order_date,
        case
            when total_amount < 0 then null  -- Remove invalid amounts
            else total_amount
        end as total_amount
    from source
    where order_id is not null  -- Remove invalid records
)
select * from cleaned

3. Layered architecture

Staging layer: Cleaned raw data, 1:1 mapping với source
Intermediate layer: Business logic, joins, calculations
Marts layer: Final tables tối ưu cho use cases cụ thể

4. Data quality tests

# dbt models/schema.yml
models:
  - name: stg_orders
    columns:
      - name: order_id
        tests:
          - unique
          - not_null
      - name: total_amount
        tests:
          - not_null
          - accepted_range:
              min_value: 0
              max_value: 1000000000

Carptech principle: Chúng tôi luôn tuân theo quy tắc "90% chuẩn bị, 10% phân tích". Đầu tư đúng vào data modeling sẽ tiết kiệm gấp 10 lần thời gian về sau.

Để tìm hiểu thêm về data modeling, bạn có thể đọc bài Data modeling: star schema, snowflake schema hay data vault?

Sai lầm #4: Xây dựng một "cái hồ" dữ liệu mà không ai biết cách dùng

Dấu hiệu nhận biết

Data platform của bạn có:

✅ Petabytes dữ liệu trong S3
✅ Kafka streams processing real-time
✅ Spark clusters với auto-scaling
❌ Nhưng... chỉ có 3 người trong công ty biết cách query dữ liệu

Case study thực tế

Một công ty logistics đầu tư 5 tỷ đồng xây data lake với đầy đủ công nghệ hiện đại. 12 tháng sau:

Usage rate: Chỉ có data team (4 người) sử dụng thường xuyên
Business users: Vẫn gửi email cho data team để xin báo cáo
ROI: Âm, vì không tạo ra business value

Root cause: Không đầu tư vào data democratization và self-service analytics.

Theo IDC 2025, các hệ thống patchwork integration (không được tích hợp đồng nhất) gây mất 40% năng suất của data teams và business users do phải liên tục chuyển đổi giữa các công cụ và hệ thống khác nhau.

Tại sao lại sai?

Data platform không chỉ là infrastructure và data. Nếu business users không thể tự phục vụ:

Data team becomes bottleneck: Mọi yêu cầu báo cáo đều phải qua data team
Slow decision-making: Phải đợi 3-5 ngày để có báo cáo
Limited innovation: Chỉ có data team nghĩ ra insights, business users không được khám phá
Poor adoption: Stakeholders không thấy value của data platform

Cách tránh

Xây dựng self-service analytics capability:

1. Business Intelligence layer

Triển khai BI tools thân thiện với non-technical users (Tableau, Power BI, Metabase, Looker)
Tạo semantic layer: Các metrics và dimensions được define sẵn với business terms
Pre-built dashboards cho common use cases

2. Data catalog cho discovery

Business users có thể search và khám phá datasets available
Mỗi dataset có documentation rõ ràng: "Table này chứa gì", "Dùng khi nào", "Sample queries"

3. Training program

Level 1: Training cơ bản về cách sử dụng BI tools (2-4 giờ workshop)
Level 2: SQL fundamentals cho những người muốn tự viết queries
Level 3: Advanced analytics cho power users

4. Enable data culture

Celebrate data wins: Chia sẻ success stories khi business users tự phát hiện insights
Office hours: Data team có slot cố định mỗi tuần để answer questions
Champions network: Identify 1-2 "data champions" trong mỗi department

Ví dụ implementation:

-- Tạo semantic layer với dbt metrics
-- models/metrics.yml
metrics:
  - name: monthly_active_users
    label: Monthly Active Users
    description: >
      Number of unique users who completed at least one transaction
      in the last 30 days
    type: count_distinct
    sql: user_id
    timestamp: transaction_date
    time_grains: [day, week, month]
    filters:
      - field: transaction_date
        operator: '>'
        value: "current_date - interval '30 days'"

Khi business users mở Looker/Tableau, họ sẽ thấy metric "Monthly Active Users" với định nghĩa rõ ràng, không cần biết SQL phức tạp phía sau.

Success metric: Mục tiêu của Carptech là 80% các câu hỏi phân tích thường gặp có thể được business users tự trả lời mà không cần qua data team.

Bạn có thể tìm hiểu thêm về cách xây dựng văn hóa self-service trong bài Self-service analytics: giải phóng data team, trao quyền cho business

Sai lầm #5: Không có người "chủ" (owner) cho dữ liệu

Dấu hiệu nhận biết

Khi phát hiện dữ liệu sai, bạn hỏi: "Ai là người chịu trách nhiệm về dataset này?"

Câu trả lời: "Ừm... không rõ. Có lẽ là team IT? Hay team Analytics?"

Case study thực tế

Một công ty SaaS phát hiện customer churn report sai số sau 3 tháng sử dụng. Khi điều tra:

Data source do team Engineering maintain
ETL pipeline do team Data Platform viết
Business logic do team Analytics define
Dashboard do team BI tạo

Không ai chịu trách nhiệm end-to-end. Kết quả: Mất 2 tuần để tìm ra root cause và fix.

Tại sao lại sai?

Khi không có owner rõ ràng:

Accountability gap: Không ai chịu trách nhiệm về data quality
Slow response: Khi có issue, không biết escalate cho ai
Knowledge silos: Chỉ người viết code mới hiểu data
Poor documentation: Không ai có responsibility để maintain docs

Cách tránh

Implement data ownership model:

1. Assign data owners

Mỗi business domain có một Data Owner (thường là senior manager)
Ví dụ:
- Customer data → Head of Customer Success
- Product data → Head of Product
- Financial data → CFO/Finance Manager

2. Data stewards

Data Owner ủy quyền cho Data Stewards (technical people) để thực thi
Data Stewards responsible for:
- Data quality monitoring
- Documentation maintenance
- Access control
- Supporting users

3. RACI matrix Đối với mỗi data asset:

Activity	Responsible	Accountable	Consulted	Informed
Define business logic	Analytics	Data Owner	Engineering	BI Team
Build ETL	Data Engineering	Data Owner	Analytics	-
Data quality monitoring	Data Engineering	Data Steward	-	Data Owner
Grant access	Data Steward	Data Owner	Security	User

4. Document ownership trong data catalog

# DataHub dataset metadata
dataset:
  name: dim_customers
  domain: Customer
  owner:
    primary: john.doe@company.com
    steward: jane.smith@company.com
  sla:
    freshness: "updated daily by 6am UTC"
    quality: "99.9% completeness on critical fields"
  support:
    slack: "#data-customer-domain"
    documentation: "https://wiki.company.com/data/customers"

5. Service-level agreements (SLAs) Data owners commit to:

Freshness: Dữ liệu được update thường xuyên thế nào?
Quality: Standard về completeness, accuracy
Availability: Uptime expectation
Support: Response time khi có issues

Carptech recommendation: Trong các dự án của chúng tôi, chúng tôi luôn yêu cầu khách hàng assign data owners trước khi bắt đầu implementation. Đây là prerequisite không thể bỏ qua.

Sai lầm #6: Bỏ qua việc đào tạo cho người dùng cuối

Dấu hiệu nhận biết

Câu chuyện quen thuộc:

Data platform hoàn thành, go-live thành công
Training session: 2 giờ workshop với 50 người, everyone says "looks great!"
2 tuần sau: Inbox của data team nhận 50 emails/ngày hỏi "How do I...?"
2 tháng sau: Usage metrics cho thấy chỉ 20% users actively sử dụng

Case study thực tế

Một công ty F&B triển khai Looker với 100+ dashboards phục vụ 200 users. Sau 6 tháng:

Active users: 30 người (15%)
Common complaint: "Quá phức tạp, tôi không biết bắt đầu từ đâu"
Fall back: Vẫn dùng Excel và gửi email hỏi data team

Sau khi redesign training program và ongoing support:

Active users: 140 người (70%)
Ad-hoc requests giảm 60%
NPS score tăng từ 20 lên 65

Tại sao lại sai?

Một tool tốt nhưng users không biết dùng = tool vô dụng. Thất bại trong training dẫn đến:

Poor adoption: ROI không đạt được vì không có usage
Frustration: Users frustrated → negative perception
Data team overload: Trở lại mô hình cũ, data team làm tất cả
Wasted investment: Công cụ đắt tiền nhưng không được dùng

Cách tránh

Xây dựng comprehensive training & enablement program:

1. Segmented training theo user personas

Đừng training "one size fits all". Segment users:

Persona A: Viewers (40%)

Chỉ cần xem dashboards sẵn có
Training needs: 30 phút về cách navigate, filter, export

Persona B: Explorers (40%)

Cần modify dashboards, tạo ad-hoc charts
Training needs: 2-4 giờ về tool fundamentals, best practices

Persona C: Builders (20%)

Tạo dashboards mới, viết SQL
Training needs: 1-2 ngày intensive workshop + advanced topics

2. Multi-format learning

Live workshops: Hands-on exercises với real scenarios
Video tutorials: 5-10 phút per topic, có thể xem lại
Documentation: Wiki với screenshots, FAQs
Quick reference cards: 1-page cheat sheets in bên cạnh màn hình

3. Ongoing support structure

Training một lần là không đủ. Cần có:

Office hours

Data team có slot cố định mỗi tuần (ví dụ: mỗi thứ 3 lúc 2-3pm)
Users có thể drop in để ask questions

Slack/Teams channel

#data-help channel để users hỏi questions
Data team + power users trả lời
Tạo knowledge base từ repeated questions

Champions program

Identify 5-10% users có technical skills tốt
Train kỹ hơn, họ trở thành "first line support" trong team mình
Champions được recognition (certificate, mention trong company meeting)

4. Progressive rollout

Đừng launch cho 200 users cùng lúc:

Phase 1: Pilot (2-4 tuần)

10-20 users, các personas khác nhau
Intensive support, gather feedback
Iterate dựa trên feedback

Phase 2: Early adopters (4-6 tuần)

Mở rộng đến 30-40% users
Champions từ pilot group giúp support
Refine training materials

Phase 3: General availability

Rollout còn lại
Mature support structure đã sẵn sàng

5. Gamification & incentives

Tạo động lực để users engage:

Certification program: Hoàn thành training → get certified
Data insight of the month: Reward users phát hiện insights hay
Dashboard showcase: Highlight well-designed dashboards

Carptech approach: Trong mỗi dự án, chúng tôi budget 15-20% effort cho training và change management. Nhiều khách hàng ban đầu nghĩ đây là "overhead", nhưng đây chính là yếu tố quyết định adoption.

Sai lầm #7: Để chi phí cloud vượt khỏi tầm kiểm soát

Dấu hiệu nhận biết

Tháng 1: AWS bill = $5,000. "Ổn, đúng dự kiến."

Tháng 3: AWS bill = $12,000. "Ồ, usage tăng nhanh quá. Nhưng OK, chúng ta đang growth."

Tháng 6: AWS bill = $35,000. "WTF?! Tại sao lại tăng gấp 7 lần?"

Bạn login vào AWS Cost Explorer, thấy 50+ services, hàng trăm resources, không biết bắt đầu optimize từ đâu.

Case study thực tế

Một startup e-commerce với $500K funding:

Month 1: Triển khai data platform on AWS. Bill = $3,000
Month 4: Bill = $18,000 (60% của revenue)
Root causes:
- Snowflake warehouse set to auto-resume, không auto-suspend
- S3 bucket chứa 15TB dữ liệu, 80% không được dùng
- Airflow running trên EC2 instances chạy 24/7 dù chỉ cần 8 giờ/ngày
- Fivetran connectors sync every 5 minutes dù chỉ cần hourly

Sau khi optimize:

Bill giảm từ $18,000 → $6,000 (giảm 67%)
Performance không bị ảnh hưởng

Tại sao lại sai?

Cloud computing có nguyên tắc: "You pay for what you use". Nhưng nếu không monitor và optimize:

Zombie resources: Services đang chạy mà không ai dùng
Overprovisioning: Instances quá lớn so với nhu cầu
Inefficient queries: Queries scan toàn bộ table thay vì partition
Data hoarding: Giữ dữ liệu cũ không cần thiết

Cách tránh

Implement FinOps practices for data platform:

1. Set up cost monitoring and alerts

# AWS Budget alert config
Budget:
  Name: DataPlatform-Monthly
  Amount: 10000
  Unit: USD
  Alerts:
    - Threshold: 80%  # Alert tại $8,000
      Type: ACTUAL
      Subscribers:
        - cto@company.com
        - data-team@company.com
    - Threshold: 100%  # Alert tại $10,000
      Type: FORECASTED  # Dự đoán sẽ vượt

2. Tagging strategy

Tag mọi resources với:

Environment: production, staging, dev
Team: data-platform, analytics, ml
Project: customer-churn, inventory-optimization
Owner: john.doe@company.com

→ Dễ dàng track chi phí theo team, project, environment

3. Right-sizing và auto-scaling

Snowflake optimization:

-- Set warehouse auto-suspend after 1 minute of inactivity
ALTER WAREHOUSE analytics_wh SET AUTO_SUSPEND = 60;

-- Scale down size if usage low
ALTER WAREHOUSE analytics_wh SET WAREHOUSE_SIZE = 'SMALL';

-- Query optimization: sử dụng clustering keys
ALTER TABLE fact_orders CLUSTER BY (order_date);

4. Data lifecycle policies

# S3 lifecycle policy
{
    "Rules": [
        {
            "Id": "ArchiveOldData",
            "Status": "Enabled",
            "Filter": {"Prefix": "raw-data/"},
            "Transitions": [
                {
                    "Days": 90,
                    "StorageClass": "STANDARD_IA"  # Infrequent Access
                },
                {
                    "Days": 365,
                    "StorageClass": "GLACIER"  # Archive
                }
            ],
            "Expiration": {"Days": 2555}  # Delete after 7 years
        }
    ]
}

5. Query và pipeline optimization

Bad query (scan toàn bộ table):

SELECT * FROM orders WHERE order_date > '2025-01-01';

Cost: $50 per run, scanning 500GB

Good query (partition pruning):

SELECT * FROM orders
WHERE year = 2025 AND month = 1;  -- Partition keys

Cost: $2 per run, scanning 20GB

6. Reserved instances & savings plans

Đối với stable workloads:

AWS Reserved Instances: Giảm 30-50% chi phí EC2, RDS
Snowflake upfront capacity: Giảm 15-30% chi phí compute
GCP Committed use contracts: Giảm 25-50%

7. Monthly cost review

Schedule monthly meeting để:

Review top 10 most expensive resources
Identify optimization opportunities
Compare với previous month
Forecast next month

Carptech FinOps checklist: Chúng tôi có một checklist 25 điểm để optimize data platform costs. Khách hàng trung bình giảm được 40-60% chi phí sau khi apply.

Tìm hiểu thêm về cách tính toán chi phí data platform trong bài So sánh chi phí data warehouse: Snowflake vs BigQuery vs Redshift

Sai lầm #8: Tuyển dụng sai người, sai vai trò

Dấu hiệu nhận biết

Bạn post job description: "Cần tuyển Data Engineer, phải biết Python, SQL, Spark, Kafka, Airflow, Kubernetes, AWS, Terraform... Kinh nghiệm 2-3 năm."

Hoặc: "Data Analyst phải biết làm tất cả: SQL, Python, Tableau, Excel, PowerPoint, product management..."

Red flag: Bạn đang tìm unicorn, không phải human.

Case study thực tế

Một công ty logistics tuyển "Data Engineer" với JD rất rộng. Người được tuyển:

Background: 3 năm làm backend engineer, biết Python và SQL
Không có kinh nghiệm về data modeling, ETL orchestration, hoặc data warehouse
Công ty kỳ vọng người này xây dựng entire data platform trong 6 tháng

Kết quả:

6 tháng sau: Platform built, nhưng full of technical debt
Data quality issues liên tục
Performance terrible
Phải hire consultant external để "fix"

Root cause: Hire sai profile, expectations mismatch.

Tại sao lại sai?

Data roles rất specialized. Khi tuyển sai:

Underperformance: Người không có skills phù hợp → output kém
Technical debt: Quick hacks thay vì proper solutions
Burnout: Kỳ vọng quá cao → stress → người đó nghỉ việc
Wasted time & money: Phải hire lại, training lại

Cách tránh

1. Hiểu rõ các vai trò trong data team

Đừng nhầm lẫn các roles sau:

Role	Focus	Key Skills	Output
Data Engineer	Build pipelines & infrastructure	ETL, SQL, Python, Spark, Airflow, Cloud	Reliable data pipelines
Analytics Engineer	Data modeling & transformation	SQL, dbt, data modeling, BI	Clean, modeled data for analysis
Data Analyst	Business insights & reporting	SQL, BI tools, Excel, business acumen	Dashboards, reports, recommendations
Data Scientist	Predictive modeling & ML	Python, ML, statistics, algorithms	ML models, predictions

2. Hire for team maturity stage

Stage 1: 0→1 (startup, no data team yet)

Hire: Analytics Engineer hoặc Senior Data Analyst with some engineering skills
Why: Cần người hiểu business + có thể tự build simple pipelines
Don't hire: Junior Data Scientist (chưa có data sạch để làm ML)

Stage 2: Scaling (đã có basic platform)

Hire: Data Engineer to professionalize pipelines
Then: More specialized analysts cho từng business domain

Stage 3: Advanced (mature platform)

Hire: Data Scientists, ML Engineers cho advanced use cases
Hire: Data Platform Engineer cho infrastructure optimization

3. Write clear, realistic JDs

Bad JD example:

Data Engineer (2 years exp)
Must know: Python, Java, Scala, SQL, Spark, Kafka,
Airflow, Kubernetes, Docker, AWS (S3, EC2, EMR, Glue, Lambda),
Snowflake, dbt, Tableau, machine learning...

→ Đây là 3 roles khác nhau!

Good JD example:

Analytics Engineer (2-4 years exp)
Core requirements:
- SQL expert (window functions, CTEs, optimization)
- Experience with dbt or similar transformation tools
- Understanding of dimensional modeling
- Familiar with BI tools (Tableau/Looker/Power BI)

Nice to have:
- Python for scripting
- Experience with Snowflake or BigQuery
- Data quality testing frameworks

4. Assess for right skills

For Data Engineer:

Technical test: "Design ETL pipeline to process 1M records/hour"
System design: "How would you build a real-time streaming pipeline?"

For Analyst:

SQL test với real business scenarios
Case study: "Given this data, what recommendations would you make?"

For Analytics Engineer:

dbt modeling test
Data modeling exercise: "Design star schema for e-commerce"

Carptech insight: Chúng tôi thấy nhiều doanh nghiệp Việt Nam hire Data Scientist trước khi có Data Engineer. Đây là sai lầm lớn. Data Scientist cần "clean, modeled data" để làm việc. Không có foundation → Data Scientist sẽ dành 80% time làm data engineering, không phải ML.

Sai lầm #9: Kỳ vọng có kết quả trong vài tuần

Dấu hiệu nhận biết

Tuần 1: Kickoff meeting. "Chúng ta sẽ có dashboard đầu tiên khi nào?" - "Có lẽ 2-3 tuần nữa ạ."

Tuần 4: "Dashboard đã xong chưa?" - "Dạ chúng em đang integrate data từ 5 systems, schema rất messy, cần thêm thời gian..."

Tuần 8: "Sao lâu vậy? Competitor họ làm trong 1 tháng mà!" - CFO không hài lòng.

Case study thực tế

Một công ty retail kỳ vọng "data-driven culture" sau 2 tháng triển khai data platform. Timeline họ tưởng tượng:

Month 1: Setup infrastructure, ingest data
Month 2: Có dashboards, bắt đầu data-driven decisions
Month 3: ROI rõ ràng

Reality:

Month 1-2: Setup infrastructure, nhưng phát hiện data quality issues nghiêm trọng
Month 3-4: Fix data quality, standardize schemas
Month 5: First reliable dashboards ready
Month 6-8: Training users, adoption gradual
Month 9-12: Bắt đầu thấy business impact rõ ràng

Actual timeline: Gấp 4-5 lần kỳ vọng ban đầu.

Tại sao lại sai?

Data platform không phải là "install software và xong". Các yếu tố làm chậm:

Data quality issues: Data source messy hơn expected (luôn luôn!)
Technical complexity: Integration giữa nhiều systems phức tạp
Organizational change: Người dùng cần time để adopt new tools
Iterative process: Cần nhiều vòng feedback để refine dashboards

Cách tránh

Set realistic expectations từ đầu:

1. Phân chia thành phases với milestones rõ ràng

Phase 1: Foundation (Month 1-3)

✅ Infrastructure setup
✅ Connect 2-3 critical data sources
✅ Basic data quality checks
🎯 Deliverable: First prototype dashboard

Phase 2: Expansion (Month 4-6)

✅ Connect remaining data sources
✅ Data modeling & transformation
✅ User training & onboarding
🎯 Deliverable: 5-10 production dashboards

Phase 3: Optimization (Month 7-9)

✅ Performance tuning
✅ Self-service enablement
✅ Advanced use cases
🎯 Deliverable: Measurable business impact

Phase 4: Scale (Month 10-12)

✅ Expand to more teams
✅ Advanced analytics & ML
🎯 Deliverable: ROI positive

2. Quick wins strategy

Đừng chờ "perfect solution". Tìm quick wins để build momentum:

Week 2-3: Simple dashboard từ 1-2 data sources sạch nhất → Show early progress, build confidence

Month 2: Solve 1 painful manual process → Tangible value, users bắt đầu tin

Month 3: Enable self-service cho 1 team pilot → Prove concept works

3. Communicate progress regularly

Weekly updates to stakeholders:

What we completed this week
What we learned (especially challenges)
What's next
Any blockers

→ Transparency giúp manage expectations

4. Use phased rollout

Đừng launch "big bang" cho toàn công ty. Rollout theo phases:

Pilot team (1-2 teams) → learn & iterate
Early adopters (20-30% users) → build momentum
General availability (everyone) → proven and stable

Carptech rule of thumb:

Prototype: 4-6 tuần

Production-ready: 3-4 tháng

Business impact visible: 6-9 tháng

ROI positive: 12-18 tháng

Nếu ai hứa nhanh hơn, hãy skeptical.

Sai lầm #10: Không có sự bảo trợ từ cấp lãnh đạo

Dấu hiệu nhận biết

"Sếp tôi nói 'cứ làm data platform đi', nhưng khi tôi xin budget hoặc cần decisions, họ không available."

Hoặc: "CEO không bao giờ tham gia meetings về data. Họ nghĩ đây là 'IT project'."

Case study thực tế

Một công ty sản xuất triển khai data platform với budget 3 tỷ đồng. CTO sponsor, nhưng CEO và CFO "không quan tâm lắm".

Challenges encountered:

Month 3: Cần access vào SAP ERP data, nhưng Finance team từ chối (security concerns). CTO không đủ authority để override.
Month 5: Cần thêm budget 500 triệu cho unexpected costs. CFO decline vì "không thấy value".
Month 7: Cần Marketing team allocate 2 người for training. CMO nói team quá bận, không thể spare.

Result: Dự án kéo dài 18 tháng thay vì 12 tháng, cost overrun 40%, adoption rate thấp.

Root cause: Không có executive sponsor với real authority và commitment.

Tại sao lại sai?

Data platform là enterprise initiative, không phải "IT project". Cần executive sponsorship vì:

Cross-functional collaboration: Cần cooperation từ nhiều departments (IT, Finance, Marketing, Ops...)
Budget decisions: Thường cần budget adjustments
Priority conflicts: Khi có conflict, cần executive để arbitrate
Change management: Cultural change cần push từ top-down

Cách tránh

1. Identify the right executive sponsor

Good sponsors:

CEO hoặc COO (best)
CFO (nếu data platform focus vào financial/operational insights)
CDO (Chief Data Officer) nếu company có

Not ideal:

CTO alone (often seen as "just IT", không đủ business context)
VP level (không đủ authority)

2. Executive sponsor responsibilities

Clarify expectations:

Commitment:

Attend monthly steering committee meetings
Make decisions khi có blockers
Communicate importance của initiative to the org

Advocacy:

Present data platform vision trong all-hands meetings
Lead by example: Use dashboards, ask data-driven questions
Celebrate wins publicly

Resource allocation:

Approve budget when needed
Help resolve cross-functional conflicts
Ensure teams allocate time for collaboration

3. Create steering committee

Members:

Executive sponsor (chair)
Representatives từ key departments (Finance, Marketing, Ops, Product)
Data team lead
IT/Infrastructure lead

Cadence: Monthly 1-hour meeting

Agenda:

Progress update
Key decisions needed
Budget status
Risks & blockers

4. Regular executive updates

Format: Executive dashboard (not slide deck)

Key metrics:

Progress: % milestones completed
Adoption: # active users, # dashboards created
Business impact: Use cases delivered, ROI delivered
Health: Budget status, timeline status, team sentiment

Frequency: Monthly to sponsor, Quarterly to broader exec team

5. Tie to business OKRs

Connect data platform to company OKRs:

Company OKR: "Increase revenue by 25% in 2026"

Data platform contribution:

KR1: Enable sales team với customer insights → improve conversion by 15%
KR2: Marketing campaign optimization dashboards → improve ROI by 20%

→ Executives see direct link to their goals

Carptech observation: Trong các dự án thành công, executive sponsor dành trung bình 2-3 giờ mỗi tháng cho data initiative. Trong các dự án thất bại, sponsor "too busy", chỉ xuất hiện trong kickoff meeting.

Tổng kết: Checklist để tránh các sai lầm

Trước khi bắt đầu data platform project, hãy đảm bảo bạn có:

Strategy & planning

3-5 use cases ưu tiên với ROI dự kiến
Executive sponsor committed
Realistic timeline (9-12 tháng minimum)
Budget cho cả technology và training

Foundation

Data governance framework defined
Data owners assigned
Business glossary started
Data quality monitoring plan

Technical

Architecture phù hợp với use cases (không overengineer)
Data modeling strategy (không dump raw data)
Cost monitoring setup
Right team with right skills hired

Adoption & people

Training program planned cho các user personas
Change management strategy
Champions identified
Self-service capability roadmap

Governance

Steering committee established
Monthly review cadence
Metrics to measure success defined
Communication plan to broader org

Kết luận

Xây dựng data platform là một hành trình dài, phức tạp, và đầy thách thức. Những sai lầm chúng tôi chia sẻ trong bài viết này không phải là lý thuyết - chúng là những bài học đắt giá từ kinh nghiệm thực tế của hàng chục dự án.

Good news: Tất cả các sai lầm này đều có thể tránh được nếu bạn:

Học từ người đi trước: Đừng tự mình học bằng cách mắc sai lầm
Bắt đầu từ business problem: Technology là phương tiện, không phải mục đích
Đầu tư vào people và process: Không chỉ infrastructure
Có patience: Kết quả sẽ đến, nhưng cần thời gian

Nếu bạn đang plan xây dựng data platform cho năm 2026, hãy đọc bài Lập kế hoạch data platform 2026: các ưu tiên cho năm tới để có một roadmap cụ thể hơn.

Bạn muốn được tư vấn chi tiết?

Tính ROI Data Platform miễn phí → — Ước tính chi phí và lợi ích trước khi đầu tư, tránh sai lầm "đầu tư không có business case"
Làm Data Maturity Assessment → — Biết doanh nghiệp đang ở đâu trên 6 dimensions

Tại Carptech, chúng tôi đã giúp 20+ doanh nghiệp Việt Nam tránh được những sai lầm này và xây dựng data platform thành công. Đặt lịch tư vấn miễn phí 60 phút để chúng tôi giúp bạn đánh giá hiện trạng và lập kế hoạch cho năm 2026.

Top 10 sai lầm khi xây dựng data platform năm 2025 (và cách tránh)

Sai lầm #1: Đầu tư vào công nghệ mà không có bài toán kinh doanh rõ ràng

Dấu hiệu nhận biết

Tại sao lại sai?

Cách tránh

Sai lầm #2: Bỏ qua data governance, dẫn đến dữ liệu hỗn loạn

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #3: Coi nhẹ việc làm sạch và mô hình hóa dữ liệu

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #4: Xây dựng một "cái hồ" dữ liệu mà không ai biết cách dùng

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #5: Không có người "chủ" (owner) cho dữ liệu

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #6: Bỏ qua việc đào tạo cho người dùng cuối

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #7: Để chi phí cloud vượt khỏi tầm kiểm soát

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #8: Tuyển dụng sai người, sai vai trò

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #9: Kỳ vọng có kết quả trong vài tuần

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Sai lầm #10: Không có sự bảo trợ từ cấp lãnh đạo

Dấu hiệu nhận biết

Case study thực tế

Tại sao lại sai?

Cách tránh

Tổng kết: Checklist để tránh các sai lầm

Strategy & planning

Foundation

Technical

Adoption & people

Governance

Kết luận

Đăng ký nhận bài viết mới

Có câu hỏi về Data Platform?

Bài viết liên quan

Báo cáo data maturity doanh nghiệp Việt Nam 2026

Data catalog trong thực tế: implementation guide và best practices

Cost Optimization cho Data Platform: Giảm 40-60% Cloud Bills

Dịch Vụ

Công Ty

Tài Nguyên

Pháp Lý