Chào mừng các bạn đọc giả đến với trang blog của tụi mình, ngày hôm nay mình sẽ giới thiệu một công việc mà đã được chuyên trang Harvard Business Review gọi là ““the sexiest job of the 21st century”. Đọc đến đây thì bản thân mình cũng tự hỏi là nghề này có điểm gì mà được tung hô là ‘sét xi nhất’ và trước khi chúng ta đi tìm hiểu những giá trị của nghề Data Scientist thì mình sẽ nói qua về lĩnh vực của nó gọi là Data Science nha.
Data Science là gì?
Data Science là một lĩnh vực khoa học giải quyết các bài toán xử lý thông tin được lưu trữ trên máy tính. Hiện nay, ngành khoa học dữ liệu được áp dụng nhiều vào những doanh nghiệp lớn và ngay cả SMEs trên thế giới. Bằng cách tận dụng sức mạnh của Data Science, người chủ doanh nghiệp có thể khai thác được những thông tin có lợi được ẩn giấu bên trong dữ liệu cấu trúc (structured data) như data dạng column giống 1 file excel hay cả dữ liệu không cấu trúc (unstructured data) như là hình ảnh, âm thanh và video,… bằng cách áp dụng các phương pháp mô hình hóa dữ liệu hay các thuật toán như Machine Learning và Deep Learning từ đó họ có thể mang đến trải nghiệm tốt hơn cho người dùng nhắm thúc đẩy doanh thu và lợi nhuận cho công ty.
Sau đây, mình muốn giới thiệu một số trường hợp cụ thể đã thành công nhờ triển khai Data Science tại doanh nghiệp của chính họ:
- NetFlix: Đây là một cái tên quá phổ biến với những ai đam mê lĩnh vực phim ảnh nói riêng và giải trí nói chung, bằng cách áp dụng một cách phù hợp thuật toán Machine Learning, NetFlix đã cung cấp một trải nghiệm tuyệt vời cho người dùng của họ thông qua phương pháp personalized recommendation (gợi ý cá nhân) từ đó ông trùm làng phim kỹ thuật số đã tiết kiệm được cho mình trung bình $1 billion hằng năm trong việc giữ chân khách hàng.
- Fraud Detection: gian lận trong giao dịch tại các ngân hàng không chỉ lấy đi rất nhiều tiền bạc của người dùng mà còn khiến các doanh nghiệp chịu rất nhiều thiệt hại. Bằng cách áp dung thuật toán Machine Learning kết hợp tài chính, Fetch Reward đã giảm tỷ lệ gian lận đến 70%.
- Churn Prediction: trong lĩnh vực viễn thông, khách hàng lựa chọn chấm dứt hợp đồng với một nhà cung cấp internet nào đó là chuyện khó tránh khỏi. Là một sản phẩm của trung tâm CADS, đội ngũ đã phát triển thuật toán giúp dự đoán người dùng nào có khả năng cao ‘rời mạng’ dựa trên những hành vi của chính người dùng này với độ chính xác ~43.1% đã góp phần giúp FPT Telecom giữ chân hàng chục nghìn khách hàng có nguy cơ rời mạng mỗi năm.
Hiện nay, Data Science được xem như một phương pháp được áp dụng tại rất nhiều lĩnh vực khác nhau với mục đích nâng cao trải nghiệm và cuộc sống cá nhân của người dùng. Với vai trò là người nghiên cứu, cài đặt, vận hành, một Data Scientist sẽ có cơ hội tham gia rất nhiều công việc khác nhau trong một dự án, minh mời mọi người cùng đọc tiếp để khám phá điều đặc biệt này nhé.
Data Scientist là làm gì ?
Với vai trò là người đảm nhiệm công việc “mlem nhất’ thế kỷ 21”, bằng cách áp dụng những kiến thức toán thống kê kết hợp cùng sự nhạy bén về dữ liệu cộng với khả năng kiên trì, một người làm Data Scientist sẽ thao tác, xử lý với nhiều loại dữ liệu khác nhau từ file excel đến những loại khó nhai hơn như hình ảnh, âm thanh, video vân vân và mây mây… để cho ra những insights hay còn gọi là những thông tin mà chúng ta không thể nhìn vào dữ liệu nguồn gốc mà thấy được, chúng chỉ có thể được tìm thấy thông qua các bước tính toán và mô hình hóa khác nhau. Từ đó nó không chỉ giúp các anh/chị cấp trên có thể nhìn vào vào đưa ra những quyết định kinh doanh có lợi cho công ty mà còn giúp cải thiện một quy trình hay nâng cao trải nghiệm của khách hàng một cách tốt hơn.
Nói lý thuyết thì các bạn có vẻ khó hiểu, mình sẽ lấy 1 công đoạn mà đội ngũ mình đã từng làm để trích xuất insight từ dữ liệu nha. Ngày trước team mình có cơ hội cộng tác với một công ty SMEs về mảng thời trang, họ yêu câu bên mình xây dựng một dashboard để họ dễ dàng theo dõi số liệu hàng tháng/quý và sau khi thống nhất yêu cầu thì mình sẽ liệt kê 1 vài thông tin mà đội ngũ đã quyết định đưa vào bảng số liệu:
- Doanh số tổng/trung bình bán được hàng ngày.
- Top 5 mặc hàng bán chạy nhất và ngược lại.
- Top những món đồ mà người dùng mua cùng 1 giỏ hàng.
Các bạn có thể thấy, công đoạn này chỉ áp dụng vài công thức excel + lập trình đơn giản mà lại cho được những chi tiết mà nếu mình chỉ nhìn vào dữ liệu cơ bản thì không thể nhìn thấy được. Dựa vào những chi tiết trên thì khách hàng đã có một cái nhìn tổng quát hơn về thực trạng kinh doanh của mình từ đó họ đã đưa ra những chiến lược phù hợp để cải thiện sản phẩm và tiếp cận người mua tốt hơn.
Để các bạn có một cái nhìn tổng quát hơn về các công đoạn mà một người làm Data Scientist phải thực hiện, mời bạn đọc xem quy trình dưới đây:
Nhận thông tin/nhu cầu
Ở bước này, chúng ta sẽ có cơ hội gặp gỡ, trò chuyện và lắng nghe những chia sẻ về vấn đề hay ý định của khách hàng và bản thân người Data Scientist cũng phải đặt ra vài câu hỏi nhằm giúp dự án của mình được thực hiện một cách có quy chuẩn nhất, mình muốn lưu ý là giai đoạn này thường mất khoảng 2 đến 3 cuộc họp để thống nhất giữa hai bên:
- Khách hàng cần mình giải quyết vấn đề gì cho họ ?
- Họ kỳ vọng giải pháp của mình có thể giúp họ cải thiện quy trình/doanh số như thế nào, cái này cần ước lượng từ doanh nghiệp ?
- Đầu vào / đầu ra mong muốn của họ là gì ?
- Họ có thể hỗ trợ mình những thông tin nào ?
- Đầu ra cho từng giai đoạn (phase) ra sao ?
- Kết quả tổng thể / giai đoạn được đánh giá dựa trên tiêu chí nào ?
Thu thập dữ liệu
Sau khi đã xác định được những yêu cầu của dự án thì ở bước này, người làm Data Scientist sẽ bắt đầu lấy dữ liệu đầu vào từ khách hàng. Tại giai đoạn này, cả hai bên cần có những thống nhất về quy trình giao nhận nhằm bảo mật dữ liệu ở mức cao nhất, nhận hằng ngày vào mấy giờ hay nhận 1,2 ngày một lần vì thông tin data nếu để đối thủ cạnh tranh có được thì sẽ gây ảnh hưởng xấu cho doanh nghiệp và chính công ty của bạn.
Tìm hiểu dữ liệu
Sau khi đã hoàn tất các thủ tục giao, nhận data giữa hai bên, Data Scientist bắt đầu bóc vỏ nó, họ sẽ áp dụng những phương pháp mô hình hóa (visualize) dữ liệu cơ bản để quan sát chúng. Ví dụ khi nhóm mình đảm nhận dự án nhận diện cảm xúc của khách hàng thông qua giọng nói, team sẽ xem audio đó là mono (1 channel – giọng khách hàng và nhân viên mix thành một) hay stereo (2 channel – giọng 2 người được tách biệt) sau đó mình sẽ xem về độ dài trung bình của một audio là bao lâu và bước quan trọng nhất là nghe thử nhiều file để xem cách mà khách hàng định nghĩa emotion và những biểu hiện thực tế trong audio có giống nhau không từ đó mình có thể điều chỉnh requirements phù hợp.
Chọn phương pháp phù hợp
Đây có thể được xem là bước gian nan nhất của đối với nhiều bạn Data Scientist vì đây là bước quyết định mức độ thành công của dự án. Một người Data Scientist phải dựa vào những kết quả từ bước “Nhận thông tin/nhu cầu”, “Tìm hiểu dữ liệu” và sau đó chọn cách tiếp cận những mô hình (model) thông qua việc đọc những tài liệu trên những diễn đàn về công nghệ, sau đó họ phải trải qua một thời gian dài huấn luyện, thử nghiệm và deploy mô hình (mình sẽ giải thích thêm ở một bài viết khác) từ đó họ sẽ chọn ra được một mô hình phù hợp với bộ dữ liệu họ đang có.
Mô hình hóa kết quả
Đây là một bước quyết định dự án của bạn có thuyết phục được khách hàng hay không, sau tất tần tật các bước đau đầu phía trên, tại đây, người làm công nghệ đã có cho mình một mô hình kèm nhiều metric đo lường khác nhau. Một Data Scientist phải chọn lựa, sắp xếp và trình bày các metric một cách dễ hiểu nhất nhằm hướng đến kỳ vọng mà khách hàng đã đặt ra lúc đầu.
Triển khai & Tích hợp
Sau khi xây dựng mô hình với metric đo lường thỏa mãn các nhu cầu business đã đề ra ở bước 1 thì việc tiếp theo mà người Data Scientist phải thực hiện đó là triển khai/tích hợp sản phẩm của mình vào hệ thống chung của doanh nghiệp. Để thực hiện thì đội ngũ kỹ thuật cần phải xác định luồng dữ liệu IN/OUT giữa các hệ thống khi hoạt động, tính toán được việc hằng ngày hệ thống phải xử lý những gì, cần hạ tầng tài nguyên như thế nào… từ đó chuẩn bị phương án thích hợp. Ngoài ra, tùy vào đặc điểm sản phẩm mà đội ngũ có thể sẽ cần phối hợp đội business chuẩn bị các kịch bản để các Nhân viên sale/marketing/chăm sóc khách hàng/tổng đài…. khai thác, sử dụng kết quả đã được phân tích từ dữ liệu một cách hiệu quả. Việc triển khai tích hợp này thường chiếm trung bình 3-6 tháng, có thể hơn, tùy theo độ phức tạp của bài toán.
Vận hành & Duy trì
Sau khi thuyết phục được sếp của mình và đối tác để triển khai dự án thì đây chưa phải là hồi kết mà bạn còn phải cùng doanh nghiệp quan sát quá trình vận hành lâu dài và đưa ra những idea mới cho sản phẩm. Trong quá trình này, đội ngũ kỹ thuật và doanh nghiệp có thể có thời gian để nhìn thêm và nhìn xa hơn về “người con” của mình. Liệu nó có thể được mở rộng để giải quyết thêm những vấn đề khác hay không ? Sản phẩm của mình có thể kết hợp với ”đứa con tinh thần” của ai trong đội nhóm để tạo nên một sản phẩm lớn hơn hay không ? Chúng ta có thể target thêm nhóm người dùng nào nữa hay không ? … Việc có thêm visions như vậy sẽ giúp chúng ta scale up sản phẩm của mình một cách tốt hơn rất nhiều.
Vậy là chúng ta đã cùng nhau đi qua những tasks mà một người làm Data Scientist phải làm trong quá trình tham gia dự án, mục tiếp theo mời mọi người cùng nghe chia sẻ từ chính những người làm Data Scientist tại trung tâm CADS tụi mình nha để các bạn có thể có một góc nhìn thực tế hơn về nghề này nha.
Ở CADS, các Data Scientist nghĩ gì ?
Team mình sẽ chọn ra 5 câu hỏi và chọn bất kỳ anh chị hay những bạn đang tham gia dự án tại CADS để cùng nhau khám phá về nghề này nhá.
Bạn Vĩnh Phùng – Data Scientist
Questioner: “Bạn có thể giải thích thêm về công việc bạn đang làm không”
Vĩnh Phùng: “Dự án của mình là phát hiện người lạ mặt đi vào tòa nhà sử dụng kỹ thuật xử lý ảnh kết hợp với FPT Camera”
Questioner: “Xử lý ảnh có liên quan tới Data Scientist không?”
Vĩnh Phùng: “Tất nhiên là có. Hình ảnh vẫn là 1 dạng dữ liệu lưu trữ trên máy tính. Tụi mình vẫn áp dụng các kiến thức về Data Science và các quy trình xử lý dữ liệu trong project”
Questioner: “Task chiếm nhiều thời gian nhất của bạn là gì”
Vĩnh Phùng: “Task chiếm nhiều thời gian của mình nhất là xử lý data đầu vào vì bước này làm kỹ thì những công đoạn sau sẽ dễ thở hơn nhiều”
Questioner: “Bạn cảm thấy hứng thú nhất khi làm task nào”
Vĩnh Phùng: “Task hay nhất là optimize cho hệ thống đạt được độ chính xác cao nhất và độ trễ thấp nhất vì đây là bước mình có thể tiếp cận được nhiều công nghệ, phương pháp hay có thể áp dụng cho mọi bài toán, đây là bước có thể học được nhiều nhất, nhiều ý tưởng mới được đưa ra nhất”
Bạn Freddie (nickname) – Data Scientist
Questioner: “Bạn có thể giải thích thêm về công việc bạn đang làm không”
Freddie: “Dự án của mình là xác định cảm xúc của khách hàng sau khi gọi vào tổng đài của FPT Tececom từ đó tụi mình có thể cải thiện chất lượng phục vụ nhằm nâng cao trải nghiệm của người dùng”
Questioner: “Task chiếm nhiều thời gian nhất của bạn là gì”
Freddie: “Đối với mình, mình dành nhiều thời gian cho công đoạn nghe thử audio và xử lý data đầu vào”
Questioner: “Bạn cảm thấy hứng thú nhất khi làm task nào”
Freddie: “Task mình cảm thấy đem lại nhiều giá trị nhất là cải thiện độ chính xác và tốc độ của hệ thống vì công đoạn này có thể giúp mình học thêm kiến thức cũng như nâng cao trải nghiệm cho người dùng”
Cảm ơn những chia sẻ từ các bạn thành viên của CADS, hy vọng bạn đọc sẽ thấy được những giá trị mà nghề Data Scientist mạng lại không chỉ cho cá nhân mình mà còn cho cả doanh nghiệp mà bạn đang cộng tác nha.
Lời kết
Lời cuối cùng mình và trung tâm CADS rất cảm ơn các bạn đã dành thời gian để xem đến đây, mình hy vọng bài viết này sẽ là tour guide cho những ai đang có ý định tìm hiểu về lĩnh vực “mlem” này. Mình chúc các bạn tìm được một road map riêng cho bản thân sau khi đọc hết bài viết này và nếu đã tìm được rồi thì hãy quyết liệt chiến đấu với nó cho dù có gặp khó khăn hay bất kỳ trở ngại nào nhé.
Screw it, Let’s do it (Mặc kệ nó, làm tới đi) – Richard Branson.