Dưới đây là miêu tả chi tiết các bước Làm data hay hành nghề phân tích dữ liệu phải xử lý:
- Generate: trước khi phân tích thì phải sinh ra dữ liệu từ đâu đó, bước này nghe có vẻ bình thường nhưng thử nghĩ xem nếu bạn chưa có một hệ thống gì, và các bạn đang thu thập dữ liệu trên giấy tờ thì các bạn phải xem lại mình cần phải cài đặt một hệ thống nào rồi đấy. Nếu bạn chưa có bất cứ một trong những hệ thống CRM/HRM/CMS/ERP/LMS/POS/TMS/WMS thì bạn chắc chắn cần giúp đỡ.
- Collect: sau khi tạo ra dữ liệu, ví dụ một hệ thống quản lý hoặc đơn giản hơn là một online form nào đó, bạn cần xác định được dữ liệu của mình đang được thu thập nằm ở đâu, bạn có quyền truy cập vào nó chưa? Trong trường hợp bạn đang có 1 hệ thống nào đấy thì liệu bạn có thật sự truy cập được vào dữ liệu thô của bạn chưa? hay là bên cung cấp giữ toàn bộ dữ liệu của bạn. Quan trọng là bạn biết dữ liệu của bạn có gì tại thời điểm này. Lưu ý đây là dữ liệu thô nhé, không phải dữ liệu bạn thấy được trên giao diện nào đấy.
- Store: ở bước này người ta thường dùng từ khóa DataWarehouse đao to búa lớn, nhưng thực chất chỉ là việc lưu trữ tập trung nhiều nguồn khác nhau, từ nhiều hệ thống khác nhau, vào một nơi nào đó đủ sức chứa lớn. Bài toán “dữ liệu lớn” tùy theo định nghĩa mỗi doanh nghiệp, điểm chung là dữ liệu của bạn đã vượt quá 1 file spreadsheet mà excel có thể mở được. Để lưu được lượng dữ liệu vài chục triệu dòng hoặc vài chục GB, có thể lên đến vài tỉ dòng… thì bạn cần chuyên gia nhé.
- Process: sau khi đã tập trung được dữ liệu từ các hệ thống khác nhau, thì bạn cần xử lý được đám hỗn độn đó. Bước này là một trong những bước tốn nhiều não nhất. Mình đơn giản hóa 3 bước nhỏ hơn gồm làm sạch (cleansing), chuyển hóa (transform) và làm giàu (enrich) dữ liệu bạn đang có. Ở bước này bạn sẽ nghe các phù thủy Data Engineer (kỹ sư dữ liệu) kêu gào là dữ liệu trùng nhiều quá, dữ liệu rác quá, hoặc dữ liệu thiếu thốn quá. Bạn có thể hiểu đơn giản là ở bước này dữ liệu của bạn sẽ được “tút” lại để chuẩn bị cho bước sau.
- Analyze: khi dữ liệu của bạn đã được sàng lọc và làm sạch sơ sơ thì đến bước quan trọng và tốn thời gian, tiền bạc, trí óc nhất là bước phân tích. Bước này là bước mà thường các bạn Data Analyst và Business Analyst tỏa sáng. Bằng các công cụ visualization chuyên dụng, các bạn này sẽ biến hóa các dữ liệu thô ở dạng chữ abc xyz thành các biểu đồ đẹp đẽ. Từ các biểu đồ này các “chuyên gia phân tích” sẽ tập hợp lại thành các báo cáo và dashboard với rất nhiều màu sắc và bạn có thể đem khoe với sếp bự và sếp của sếp bự (Board of Director). Đến đây thì quy trình phân tích có thể gọi là tạm hoàn chỉnh.
Bonus: thật ra các bước trên nghe phức tạp vậy chứ tóm lại chỉ là 1 phần nhỏ nhoi của việc phạm trù “làm data” gọi là Descriptive Analysis, tức là phân tích dựa vào dữ liệu quá khứ có sẵn. Còn một phạm trù lớn hơn rất nhiều đó là Predictive Analysis, nơi mà các bác marketing guru hay quăng các từ khóa như là Máy học Machine Learning, Học rất sâu Deep Learning, Trí tuệ nhân tạo A.I và Data Science. Trong mảng này bạn hoặc team bạn sẽ cần nhờ đến các phù thủy dữ liệu ở trình cao hơn viết ra những mô hình suy luận cao siêu nào đó khiến cho máy tính có thể học đúng/sai từ việc bạn dạy cho nó, và sau đó đưa ra dự đoán kết quả tương lai. Nói đại loại là thế, với kinh nghiệm đã làm qua tất cả các giai đoạn trên thì thật ra để đến được bước Data Science sẽ tốn nhiều chất xám của người hơn là máy.