Năm 2025 sắp kết thúc, và khi nhìn lại, đây là một năm đáng chú ý trong thế giới Data Platform. Nếu phải tóm tắt năm 2025 bằng một từ, từ đó sẽ là: maturity (sự trưởng thành).
Không phải trưởng thành theo nghĩa nhàm chán hoặc ngừng đổi mới. Mà trưởng thành theo nghĩa các công nghệ và patterns mà chúng ta đã thảo luận trong vài năm qua cuối cùng đã đạt đến trạng thái sẵn sàng cho production và được áp dụng rộng rãi.
Generative AI đã chuyển từ các experimental notebooks sang các production pipelines thực tế. Lakehouse architecture không còn là buzzword mà là lựa chọn mặc định cho nhiều công ty. Open table formats cuối cùng đã đạt được lời hứa về khả năng tương tác (interoperability). Và các data teams, sau nhiều năm "di chuyển nhanh và phá vỡ mọi thứ", bắt đầu nghiêm túc về governance, chi phí, và tính bền vững.
💡 Điểm nhấn 2025: Theo nghiên cứu mới nhất, 64% tổ chức hiện quản lý ít nhất một petabyte dữ liệu, và 41% có ít nhất 500 petabytes - cho thấy quy mô data đang bùng nổ ở mọi quy mô doanh nghiệp.
Trong bài này, chúng ta sẽ nhìn lại các xu hướng chính của năm 2025, phân biệt giữa hype và thực tế, chia sẻ những bài học kinh nghiệm, và xem trước những gì sắp đến trong năm 2026.
1. GenAI biến đổi data analytics - nhưng không thay thế data analysts
Đây là xu hướng lớn nhất và được nhắc đến nhiều nhất trong năm.
Làn sóng hype ở đầu năm
Quý 1 năm 2025, mọi vendor đều vội vã công bố các AI copilots:
- Microsoft Copilot trong Power BI
- Tableau Pulse với AI insights
- Looker với Gemini integration
- ThoughtSpot Sage
- AI-generated analytics xuất hiện ở khắp mọi nơi
Chu kỳ hype đạt đỉnh điểm. Các bài viết với tiêu đề như "Data Analysts có đang trở nên lỗi thời không?" lan truyền nhanh chóng. Các VC đổ tiền vào mọi startup về AI analytics.
Số liệu đáng chú ý: Theo khảo sát ngành, 67% tổ chức đã triển khai generative AI, vượt qua tất cả các loại công nghệ AI khác - cho thấy tốc độ áp dụng chưa từng có.
Thực tế vào cuối năm
Sau 12 tháng trong môi trường production thực tế:
Những gì hoạt động tốt:
Tạo SQL tự động với sự hỗ trợ của AI - tốc độ viết queries tăng đáng kể. Các senior analysts báo cáo tiết kiệm 40-50% thời gian trên các boilerplate queries phổ biến.
Natural language interfaces cho câu hỏi đơn giản - người dùng business có thể tự phục vụ các queries cơ bản mà trước đây phải nhờ analysts. Các câu hỏi dạng "Doanh thu của chúng ta tháng này là bao nhiêu?" hoạt động tốt.
Phát hiện insights tự động - AI quét dữ liệu để tìm anomalies và đưa ra cảnh báo proactive tỏ ra rất có giá trị. Nhiều công ty đã phát hiện các vấn đề sớm hơn nhiều ngày so với việc giám sát thủ công.
💡 Case study Việt Nam: Một công ty e-commerce hàng đầu tại Hà Nội sử dụng AI-powered anomaly detection phát hiện một bug trong hệ thống thanh toán sớm hơn 3 ngày so với quy trình monitoring truyền thống, giúp tránh mất 450 triệu VNĐ doanh thu.
Những gì chưa hoạt động (hiện tại):
Thay thế analysts - hóa ra, việc đặt đúng câu hỏi, hiểu bối cảnh kinh doanh, kể chuyện với dữ liệu - những việc này vẫn cần con người. AI là công cụ, không phải người thay thế.
Phân tích phức tạp - các phân tích đa bước với các sắc thái logic kinh doanh vẫn gặp khó khăn. AI thường xuyên mắc lỗi logic hoặc hiểu sai yêu cầu.
Vấn đề tin cậy - hallucinations (ảo giác) vẫn là vấn đề. Các công ty phát hiện ra các quyết định quan trọng được đưa ra dựa trên các con số do AI tạo ra có lỗi. Nhiều sự cố nghiêm trọng khi insights sai suýt dẫn đến quyết định sản phẩm tồi.
⚠️ Cảnh báo: Một fintech startup tại TP.HCM suýt thay đổi toàn bộ pricing strategy dựa trên phân tích AI - chỉ để phát hiện ra AI đã tính sai churn rate vì hiểu nhầm định nghĩa "active user". Luôn có human oversight!
Bài học quan trọng
GenAI là công cụ nhân năng suất cho các analysts có kỹ năng, không phải người thay thế. Các công ty thành công nhất coi nó như "co-pilot" với sự giám sát của con người, không phải "autopilot".
Trích dẫn từ data leader tại một fintech unicorn: "AI giúp team của tôi phân tích nhiều gấp 3 lần lượng dữ liệu. Nhưng vẫn cần con người để biết điều gì quan trọng và phải làm gì với nó."
2. Lakehouse architecture đạt được mainstream adoption
Lakehouse đã được thảo luận từ năm 2020, nhưng 2025 là năm nó trở thành xu hướng chính thống.
Điểm chuyển mình
Nhiều yếu tố hội tụ:
Table formats trưởng thành - Delta Lake, Apache Iceberg, Apache Hudi đạt độ ổn định cấp production. Khả năng tương tác được cải thiện - bạn có thể ghi với Spark, đọc với Trino, quản lý với dbt.
Vendors cam kết - Databricks, Snowflake, các cloud providers (AWS Glue, Google BigLake) đều thúc đẩy các approaches lakehouse. Sự phân mảnh giảm đi.
Thống kê thị trường đáng chú ý:
- Snowflake hiện chiếm 18.33% thị phần trong ngành, trong khi Databricks có 8.67%
- Databricks đang tăng trưởng 57% YoY (từ $2.6B trong 2024), nhanh gấp đôi Snowflake (27% YoY với doanh thu $3.8B)
- Databricks đạt định giá $62B sau vòng gọi vốn $10B đầu năm 2025
Câu chuyện thành công xuất hiện - các công ty lớn (Netflix, Uber, Airbnb) chia sẻ chi tiết về kiến trúc patterns và bài học kinh nghiệm. Điều này giúp giảm rủi ro cho việc áp dụng của những công ty khác.
Kinh tế có ý nghĩa - việc tách biệt storage và compute đã chứng minh tính hiệu quả về chi phí. Các công ty báo cáo giảm 40-60% chi phí so với traditional data warehouse cho các workloads tương tự.
💡 Phân tích chi phí cho doanh nghiệp Việt Nam: Một công ty logistics tại TP.HCM với 500GB dữ liệu/ngày đã tiết kiệm 1.2 tỷ VNĐ/năm (từ 2.8 tỷ xuống 1.6 tỷ) bằng cách chuyển từ Snowflake sang lakehouse architecture với Delta Lake trên AWS S3.
Các mô hình áp dụng được quan sát
Early adopters (2023-2024): Các công ty công nghệ, startups - sẵn sàng xử lý độ phức tạp
Mainstream (2025): Các doanh nghiệp truyền thống - ngân hàng, retailers, nhà sản xuất - bắt đầu các cuộc migration
Những người chậm chân đáng ngạc nhiên: Doanh nghiệp nhỏ vẫn ở lại với các giải pháp đơn giản hơn. Lakehouse vẫn có độ phức tạp operational mà họ không đủ khả năng.
Quyết định kiến trúc quan trọng: Chọn format nào?
Cuộc chiến giữa Delta, Iceberg, Hudi đã ổn định:
Delta Lake: Dẫn đầu về áp dụng, nhờ vào sự thúc đẩy của Databricks và các defaults tốt. Chiếm ưu thế trong các môi trường Spark-heavy.
Iceberg: Phát triển nhanh, đặc biệt trong các kịch bản open-source và multi-engine. Việc áp dụng bởi Snowflake (như Iceberg Tables) đã tăng độ tin cậy.
Hudi: Mạnh trong các use cases streaming nhưng cộng đồng nhỏ hơn. Chủ yếu được áp dụng bởi các công ty đã trong hệ sinh thái Apache.
Phán quyết: Tương lai đa định dạng đã đến. Các công ty không bị khóa vào một format như lo ngại. Các công cụ hỗ trợ nhiều formats, việc migration giữa các formats đã trở nên khả thi.
Bài học quan trọng
Lakehouse không phải là all-or-nothing. Những người áp dụng tốt nhất đã áp dụng phương pháp từng bước:
- Bắt đầu với data lake cho raw data (đã làm điều này)
- Thêm table format layer (Delta/Iceberg)
- Dần dần chuyển các analytical workloads từ warehouse
- Giữ warehouse cho các high-performance BI queries nếu cần
Cố gắng "rip and replace" warehouse hoàn toàn dẫn đến thất bại.
3. DuckDB: hiện tượng bất ngờ của năm
Nếu có giải thưởng cho "xu hướng đáng ngạc nhiên nhất của 2025", DuckDB sẽ chiến thắng áp đảo.
DuckDB là gì?
Một embedded analytical database (giống như SQLite nhưng cho analytics). Chạy in-process, không cần server. Cực kỳ nhanh cho các datasets kích thước trung bình (gigabytes đến hàng chục gigabytes).
Tại sao nó bùng nổ
Trải nghiệm developer - cài đặt bằng pip, query dữ liệu trong vài giây. Không cần setup infrastructure. Người dùng Pandas thấy nó như phép màu - các SQL queries nhanh hơn hàng đơn vị so với Pandas.
Hiệu suất - các benchmarks cho thấy DuckDB vượt trội nhiều hệ thống "big data" trên các datasets vừa với memory. Vectorized execution được tối ưu hóa cực kỳ tốt.
Tích hợp hệ sinh thái - hoạt động liền mạch với Python, R, Node.js. Đọc trực tiếp từ Parquet, CSV trong S3. Tích hợp với dbt, Jupyter notebooks.
Chi phí - miễn phí và open source. Chạy trên laptop. Không có hóa đơn cloud.
💡 Thống kê ấn tượng: DuckDB Labs công bố DuckLake, một open lakehouse format mới lưu metadata trong traditional database thay vì file hierarchies phức tạp, cung cấp true ACID transactions trên nhiều tables.
Các use cases bùng nổ
Local analytics - data scientists phân tích datasets cục bộ trước khi đẩy lên production.
dbt development - developers sử dụng DuckDB cục bộ thay vì kết nối đến expensive data warehouse trong quá trình development. Lặp lại nhanh hơn, chi phí giảm.
Edge analytics - các công ty nhúng DuckDB trong applications để chạy analytics cục bộ (ví dụ: trong mobile apps, IoT devices).
Data apps - Streamlit apps với DuckDB backend trở nên phổ biến cho các quick internal tools.
💡 Case study Việt Nam: Một startup analytics tại Hà Nội đã chuyển 60% analytics workloads từ Snowflake (chi phí 200 triệu VNĐ/tháng) về DuckDB chạy trên laptops. Tiết kiệm: 2.4 tỷ VNĐ/năm. Hiệu suất: tốt hơn cho datasets dưới 50GB.
Yếu tố MotherDuck
MotherDuck (cloud service cho DuckDB) đã huy động vốn đáng kể và ra mắt công khai. Hứa hẹn "trải nghiệm DuckDB" nhưng với cloud scale. Phản ứng trái chiều - một số thích sự tiện lợi, số khác đặt câu hỏi về sự cần thiết (sức hấp dẫn của DuckDB là sự đơn giản, cloud thêm độ phức tạp).
Bài học quan trọng
Không phải mọi vấn đề analytics đều cần giải pháp "big data". Đối với một phần đáng kể các workloads, đơn giản và nhanh > phức tạp và có thể mở rộng. DuckDB nhắc nhở ngành rằng đôi khi nhỏ hơn là tốt hơn.
Trích dẫn từ data engineer: "Chúng tôi chuyển 60% analytics từ Snowflake về DuckDB chạy trên laptops. Tiết kiệm chi phí: $100K/năm. Hiệu suất: tốt hơn."
4. Data contracts đạt được sự chấp nhận (cuối cùng)
Các vấn đề về chất lượng dữ liệu đã gây khó khăn cho các teams trong nhiều năm. 2025 là năm ngành nghiêm túc giải quyết nó với data contracts.
Data contracts là gì?
Các thỏa thuận chính thức giữa data producers và consumers về schema, độ tươi mới (freshness), chất lượng. Giống như API contracts nhưng cho dữ liệu.
Ví dụ contract:
dataset: customer_events
owner: platform-team
schema:
user_id: string (required)
event_type: string (required, enum: [click, purchase, signup])
timestamp: timestamp (required)
sla:
freshness: 15 minutes
completeness: 99.9%
Tại sao bây giờ?
Nỗi đau đạt mức tới hạn - các vấn đề về chất lượng dữ liệu gây ra tác động kinh doanh thực sự. Các silent failures dẫn đến quyết định tồi. Các teams dành hơn 40% thời gian để debug các vấn đề về dữ liệu.
Thống kê đáng báo động:
- 67% tổ chức thiếu niềm tin vào dữ liệu của họ để ra quyết định - tăng từ 55% trong 2023
- Chất lượng dữ liệu kém khiến các tổ chức trung bình mất $12.9 triệu mỗi năm
- Thị trường AI trong data quality dự kiến đạt $6.6 tỷ vào 2033, tăng trưởng CAGR 22.10%
Công cụ xuất hiện - các công cụ như Soda, Great Expectations, Monte Carlo đã thêm tính năng contracts. dbt ra mắt tính năng contracts. Đột nhiên việc triển khai trở nên khả thi.
Thay đổi văn hóa - data teams áp dụng các practices của software engineering. Tư duy "Shift left" - bắt lỗi tại nguồn thay vì downstream.
Mô hình áp dụng
Đầu tiên: Các công ty công nghệ với văn hóa engineering áp dụng nhanh chóng
Giữa năm: Các doanh nghiệp lớn bắt đầu pilots, đặc biệt trong các ngành được quản lý (tài chính, healthcare) nơi độ chính xác dữ liệu rất quan trọng
Kháng cự: Các công ty nhỏ hơn và teams không có practices engineering mạnh gặp khó khăn. Thêm contracts cảm thấy như overhead.
Kết quả khi triển khai
Các công ty báo cáo:
- Giảm 60-70% data incidents
- Phát hiện root cause nhanh hơn (contracts chỉ ra team nào có dữ liệu vi phạm thỏa thuận)
- Cải thiện trust giữa các teams
- Ít thời gian debugging hơn, nhiều thời gian xây dựng hơn
Nhưng cũng:
- Nỗ lực setup ban đầu đáng kể
- Yêu cầu thay đổi văn hóa (producers chịu trách nhiệm)
- Không giải quyết mọi thứ (garbage in vẫn là garbage out nếu contract itself sai)
⚠️ Lưu ý cho doanh nghiệp Việt Nam: Bắt đầu với các data flows quan trọng cho business (customer data, transaction data) thay vì cố gắng contract everything ngay từ đầu. Một ngân hàng tại TP.HCM bắt đầu với 5 critical datasets và mở rộng dần trong 6 tháng.
Bài học quan trọng
Data contracts hoạt động tốt nhất khi:
- Cả producer và consumer đều đồng ý
- Contracts được enforce tự động (không chỉ document)
- Bắt đầu với các data flows quan trọng, mở rộng dần dần
- Là một phần của chiến lược data governance rộng hơn
Cố gắng "boil the ocean" và contract mọi thứ cùng một lúc đều thất bại.
5. FinOps cho data trở thành mối quan tâm cấp board
Chi phí cloud data tăng vọt ngoài tầm kiểm soát buộc các tổ chức phải coi tối ưu hóa chi phí như ưu tiên chiến lược.
Hồi chuông cảnh báo
Quý 1 năm 2025, nhiều công ty công khai tiết lộ các hóa đơn cloud data gây sốc:
- Startup đốt $200K/tháng trên Snowflake với chỉ 50 nhân viên
- Doanh nghiệp phát hiện $5M chi phí hàng năm trên tài nguyên BigQuery không sử dụng
- Các công ty nhận ra một query tồi có thể tốn hàng ngàn đô la
CFOs bắt đầu đặt câu hỏi khó. "Data-driven" trở thành "Data tốn của chúng ta bao nhiêu tiền??"
⚠️ Thực tế tại Việt Nam: Một startup fintech tại Hà Nội với 80 nhân viên phát hiện họ đang chi 450 triệu VNĐ/tháng trên Snowflake. Sau khi phân tích, 60% chi phí đến từ 3 scheduled queries không được optimize chạy mỗi 5 phút. Đơn giản hóa các queries này tiết kiệm 270 triệu VNĐ/tháng.
Nguyên nhân gốc rễ
Không có giới hạn - các cloud platforms khiến việc tạo expensive resources quá dễ dàng. Không có circuit breakers.
Thiếu phân bổ (attribution) - các công ty không thể biết team/project nào gây ra chi phí. Thiếu accountability.
Thiếu hiểu biết về tối ưu hóa - data engineers tập trung vào chức năng, không phải chi phí. Viết queries không quan tâm đến compute tiêu thụ.
Độ phức tạp của vendor pricing - hiểu bạn đang trả tiền cho cái gì là khó. Hóa đơn không rõ ràng.
Các giải pháp xuất hiện
Cost monitoring tools - các vendors như Vantage, CloudZero, Select Star thêm cost tracking cụ thể cho data. Dashboards hiển thị chi phí theo team, query, dataset.
Query optimization - các công ty bắt đầu coi query performance như KPI. Các slow queries được review và tối ưu hóa. Các indexes và partitioning schemes được xem xét lại.
Resource policies - triển khai query timeouts, cost limits, approval workflows cho các expensive operations.
Đào tạo - training data teams về tác động chi phí. Làm cho chi phí hiển thị trong quá trình development.
Đàm phán lại contracts - các công ty có đòn bẩy đàm phán lại contracts vendor, nhận được volume discounts, reserved capacity pricing.
Kết quả
Các công ty nghiêm túc về FinOps báo cáo giảm 30-50% chi phí mà không hy sinh capabilities. Một số optimizers tích cực đạt được 60-70%.
Nhưng yêu cầu kỷ luật:
- Regular cost reviews (hàng tuần/tháng)
- Accountability (chargeback cho teams)
- Thay đổi văn hóa (ý thức chi phí)
💡 So sánh chi phí cho doanh nghiệp Việt Nam:
- Snowflake: ~80-120 triệu VNĐ/TB/tháng cho workloads analytics
- BigQuery: ~60-90 triệu VNĐ/TB/tháng (on-demand pricing)
- Databricks: ~50-100 triệu VNĐ/TB/tháng tùy workload type
- Lakehouse tự quản lý trên AWS S3: ~20-40 triệu VNĐ/TB/tháng (bao gồm storage + compute)
Xem chi tiết tại So sánh chi phí Data Warehouse
Bài học quan trọng
Tư duy "di chuyển nhanh và phá vỡ mọi thứ" bị phá vỡ khi "mọi thứ" bao gồm ngân sách. Các data platforms bền vững yêu cầu cân bằng giữa tốc độ với kỷ luật chi phí.
Trích dẫn từ VP Engineering: "Chúng tôi coi data infrastructure như tài nguyên miễn phí quá lâu. Thực tế đau đớn nhưng cần thiết."
6. Real-time đạt được critical mass
Real-time data pipelines không còn là use case ngách cho các tech giants. 2025 thấy mainstream adoption across industries.
Động lực thúc đẩy
Công nghệ trưởng thành - Kafka, Flink, Pulsar sẵn sàng cho production với các managed services giảm gánh nặng operational. ClickHouse, Druid cho real-time analytics databases được áp dụng rộng rãi.
Use cases chứng minh ROI - fraud detection, dynamic pricing, operational monitoring - ROI rõ ràng và đo lường được.
Kỳ vọng khách hàng - người tiêu dùng quen với trải nghiệm real-time (Uber, Grab hiển thị vị trí tài xế real-time). Khách hàng B2B yêu cầu điều tương tự.
Insight đáng ngạc nhiên
Hầu hết các use cases "real-time" thực sự không cần latency millisecond. "Near real-time" (giây đến phút) đủ cho 80% use cases. Over-engineering cho ultra-low latency là sai lầm phổ biến.
💡 Case study Việt Nam: Một sàn thương mại điện tử lớn tại TP.HCM triển khai real-time fraud detection với latency 30 giây (không phải 100ms như ban đầu nghĩ). Điều này đủ để block 94% fraudulent transactions trong khi tiết kiệm 40% chi phí infrastructure so với kiến trúc ultra-low-latency.
Bài học quan trọng
Bắt đầu với "tại sao real-time?" thay vì "làm thế nào real-time?" Nhiều công ty xây dựng streaming infrastructure đắt tiền cho các use cases mà hourly batch sẽ đủ.
7. Data governance: từ buzzword sang yêu cầu bắt buộc
Việc thực thi PDPA tại Việt Nam, các khoản phạt GDPR ở Châu Âu đạt hàng trăm triệu đô la - data governance đã chuyển từ "tốt khi có" sang "phải có".
Các phát triển chính
Automated lineage - công cụ mapping data flows end-to-end. Biết dữ liệu đến từ đâu và đi đâu trở nên khả thi ở quy mô lớn.
Privacy engineering - các kỹ thuật bảo vệ quyền riêng tư như differential privacy chuyển từ nghiên cứu sang production. Các công ty xử lý dữ liệu nhạy cảm đầu tư mạnh mẽ.
Data catalogs - các metadata management platforms (Atlan, Alation, Collibra) thấy sự áp dụng lớn. Cuối cùng giải quyết vấn đề "chúng ta có dữ liệu, nhưng nó ở đâu và có nghĩa là gì?"
Áp dụng dựa trên tuân thủ
Các ngành có quy định nghiêm ngặt (healthcare, finance) dẫn đầu. Những ngành khác theo sau khi nhận thức tăng lên.
PDPA compliance trở thành yêu cầu phổ biến trong các RFPs. Các công ty không có governance mạnh mẽ mất đơn hàng.
⚠️ Quan trọng cho doanh nghiệp Việt Nam: Luật An ninh mạng và quy định bảo vệ dữ liệu cá nhân (PDPA) Việt Nam yêu cầu:
- Lưu trữ dữ liệu cá nhân của người Việt tại Việt Nam
- Thông báo và được đồng ý trước khi thu thập
- Quyền truy cập, sửa đổi, xóa dữ liệu cho người dùng
- Báo cáo vi phạm dữ liệu trong 72 giờ
Vi phạm có thể dẫn đến phạt lên đến 5% doanh thu hàng năm.
Bài học quan trọng
Governance không giết chết agility nếu triển khai đúng. Best practices:
- Tự động hóa nếu có thể
- Xây dựng governance vào workflows (không phải quy trình riêng biệt)
- Bắt đầu với high-risk data, mở rộng dần dần
- Giáo dục > thực thi
Những gì không đáp ứng được hype
Không phải mọi thứ đều thành công. Một số xu hướng hứa hẹn quá mức:
Data mesh widespread adoption - được nói đến rộng rãi nhưng rất ít doanh nghiệp thực sự triển khai. Độ phức tạp và thay đổi tổ chức yêu cầu quá cao. Hầu hết vẫn ở lại với các mô hình centralized hoặc federated.
Blockchain cho data - tiếp tục là giải pháp đang tìm vấn đề. Áp dụng thực tế rất hạn chế ngoài cryptocurrencies.
Fully automated ML pipelines - AutoML hype đã nguội đi. Hóa ra domain expertise vẫn rất quan trọng. Automation giúp ích nhưng không thay thế data scientists.
Quantum computing cho data - vẫn còn nhiều năm nữa mới có ứng dụng thực tế. Vẫn là chủ đề nghiên cứu.
Bài học chính từ năm 2025
Tổng hợp các learnings từ năm qua:
1. Sự trưởng thành hơn sự mới lạ
Các công nghệ thành công là những công nghệ đạt độ trưởng thành production, không phải đồ chơi mới nhất sáng bóng nhất. Delta Lake, Iceberg, Flink, dbt - tất cả đều đã tồn tại vài năm. 2025 là về việc chúng đạt mainstream.
2. ROI quan trọng
Sự giám sát của CFO tăng lên. Các dự án cần business case rõ ràng. "Công nghệ tuyệt vời" không đủ. Phải chứng minh giá trị.
3. Sự đơn giản chiến thắng
Thành công của DuckDB là lời nhắc nhở: các giải pháp đơn giản hơn thường tốt hơn. Ngành đã dành nhiều năm xây dựng các distributed systems phức tạp. Hóa ra nhiều vấn đề không cần độ phức tạp đó.
4. Thay đổi văn hóa > thay đổi công nghệ
Data contracts, FinOps, governance - tất cả đều yêu cầu thay đổi văn hóa. Công nghệ hỗ trợ nhưng không giải quyết. Các công ty đánh giá thấp khía cạnh con người gặp khó khăn.
5. Open standards ngày càng quan trọng
Mối quan tâm về vendor lock-in thúc đẩy sự ưa chuộng cho open formats (Iceberg), open protocols (Arrow), open tools (dbt). Các công ty muốn sự linh hoạt để chuyển đổi.
Nhìn về năm 2026
Dựa trên các xu hướng 2025, đây là những gì chúng tôi dự đoán cho 2026:
GenAI đi sâu hơn - di chuyển xa hơn query generation sang các ứng dụng phức tạp hơn: automated data cleaning, intelligent data modeling, predictive analytics
Streaming trở thành default - như batch là default 10 năm trước, streaming architecture đang trở thành chuẩn. Batch được dành riêng cho các use cases cụ thể
Data products thinking - coi các datasets như products với owners, SLAs, consumers. Các nguyên tắc Data mesh được áp dụng ngay cả khi không có kiến trúc mesh đầy đủ
Tập trung vào sustainability - ngoài chi phí, tác động môi trường của data infrastructure đang trở thành mối quan tâm. Green computing cho data workloads
Unstructured data cuối cùng được tích hợp - text, images, videos được phân tích cùng với structured data. Embeddings và vector databases bắc cầu khoảng cách
Kết luận
Năm 2025 là một năm then chốt trong sự phát triển của data platform. Không phải về các đột phá cách mạng, mà về việc trưởng thành và mainstreaming các công nghệ và practices mà chúng ta đã phát triển.
Ngành đã chuyển từ "thử nghiệm và đổi mới với mọi giá" sang "mang lại giá trị bền vững". Từ "data với mọi độ phức tạp" sang "giải pháp phù hợp cho vấn đề trong tầm tay". Từ "công nghệ trước tiên" sang "kết quả kinh doanh trước tiên".
Sự trưởng thành này là tốt. Nó có nghĩa là data platforms đang chuyển từ bleeding edge sang nền tảng đáng tin cậy mà doanh nghiệp có thể xây dựng.
Thách thức vẫn còn: quản lý chi phí, khoảng cách kỹ năng, governance, độ phức tạp. Nhưng ngành đang giải quyết chúng một cách có hệ thống thay vì hy vọng chúng biến mất.
Năm 2026 hứa hẹn xây dựng trên nền tảng này. Ít hype hơn, nhiều substance hơn. Ít "đồ chơi mới sáng bóng" hơn, nhiều "điều này thực sự hoạt động ở quy mô lớn" hơn.
Đối với data professionals
- Tập trung vào các nguyên tắc cơ bản (SQL, data modeling, hiểu biết kinh doanh)
- Chấp nhận các công cụ mới một cách thực dụng (không vì sự mới lạ)
- Cân bằng đổi mới với tính bền vững
- Không bao giờ ngừng học (lĩnh vực vẫn đang phát triển nhanh chóng)
Đối với công ty đầu tư vào data
- Ưu tiên ROI hơn resume-driven development
- Xây dựng cho nhu cầu hôm nay với sự linh hoạt cho ngày mai
- Đầu tư vào con người và quy trình, không chỉ công nghệ
- Coi data infrastructure như tài sản chiến lược yêu cầu đầu tư liên tục
Năm 2025 dạy chúng ta: các data platforms bền vững được xây dựng trên các công nghệ trưởng thành, ROI rõ ràng, governance mạnh mẽ, và các talented teams hiểu cả công nghệ lẫn kinh doanh.
💡 Bạn muốn đánh giá lại chiến lược Data Platform của mình cho năm 2026? Carptech có thể giúp đánh giá tình trạng hiện tại, xác định cơ hội, và lập kế hoạch roadmap thực tế và hướng đến giá trị. Đặt lịch tư vấn miễn phí để thảo luận về nhu cầu cụ thể của doanh nghiệp bạn, hoặc tìm hiểu thêm về dịch vụ Data Platform của chúng tôi.
Nguồn tham khảo:




