Ngày nay, chúng ta thường xuyên bắt gặp những thuật ngữ như: khoa học dữ liệu (Data Science), trí tuệ nhân tạo (Artificial Intelligence), học máy (Machine Learning), học sâu (Deep Learning), mạng lưới thần kinh (Neural Networks), và nhiều hơn nữa. Vậy, những từ thông dụng này thực sự có ý nghĩa gì? Và tại sao bạn nên quan tâm đến chúng? Bài viết này sẽ giúp bạn có cái nhìn rõ hơn về những thuật ngữ này và vai trò của chúng trong thời đại chuyển đổi số mạnh mẽ như hiện nay.
1. Khoa học dữ liệu (Data Science) và dữ liệu lớn (Big Data)
Khoa học dữ liệu (data science) là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, có thể bạn đã biết điều đó. Nhưng bạn có biết rằng các doanh nghiệp sử dụng khoa học dữ liệu để đưa ra quyết định kinh doanh? Khá chắc chắn rằng bạn cũng biết điều đó. Vậy có gì mới ở đây nhỉ? Bạn có biết Data Science được sử dụng để ra các quyết định kinh doanh đó như thế nào không? Không ư? Cùng tìm hiểu nào.
Chúng ta đều biết rằng từng công ty công nghệ đang thu thập những lượng dữ liệu khổng lồ. Và dữ liệu là doanh thu. Tại sao vậy? Bởi vì bạn càng có nhiều dữ liệu, bạn càng thấu hiểu về kinh doanh. Sử dụng khoa học dữ liệu, bạn có thể khám phá các thể dạng (pattern) trong dữ liệu mà bạn thậm chí không biết đã tồn tại. Ví dụ, bạn có thể phát hiện ra rằng một số chàng trai đã đến thành phố New York để đi nghỉ mát rất có thể sẽ vung tay vào một chuyến đi xa xỉ đến Venice trong ba tuần tới. Nếu bạn là một công ty cung cấp các tour du lịch sang trọng đến các điểm đến mới lạ, bạn có thể quan tâm đến việc có được số liên lạc của anh chàng này.
Khoa học dữ liệu đang được sử dụng rộng rãi trong các kịch bản như vậy. Các công ty đang sử dụng khoa học dữ liệu để xây dựng các công cụ đề xuất và dự đoán hành vi của người dùng và hơn thế nữa. Và tất cả những điều này chỉ khả thi khi bạn có đủ lượng dữ liệu để áp dụng được các thuật toán khác nhau trên nguồn dữ liệu đó và đạt kết quả phân tích chính xác hơn.
Ngoài ra, trong khoa học dữ liệu còn có phân tích đề xuất (Prescriptive Analytics), nó giúp thực hiện khá nhiều dự đoán tương tự trong ví dụ du lịch phong phú ở trên. Nhưng như một lợi ích bổ sung, các phân tích đề xuất cũng sẽ cho bạn biết loại tour du lịch xa xỉ nào tới Venice mà một người có thể quan tâm. Ví dụ, một người có thể muốn đi chuyến bay hạng nhất nhưng vẫn ổn với chỗ ở ba sao, trong khi đó một người khác có thể sẵn sàng đi chuyến bay hạng phổ thông nhưng nhất định là cần một đợt nghỉ dưỡng sang trọng và có những trải nghiệm đậm chất văn hóa. Mặc dù họ đều là những đối tượng khách hàng giàu có, nhưng lại có những yêu cầu khác nhau, nên bạn có thể sử dụng phân tích đề xuất cho việc này.
Còn dữ liệu lớn (Big Data) là gì? Nói một cách đơn giản, big data chứa một khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau, trong đó, dữ liệu từ hàng triệu người dùng ngày càng tăng lên và đa dạng hơn. Càng nhiều dữ liệu thì các mô hình học máy (machine learning) được huấn luyện từ các dữ liệu này sẽ càng đa dạng, độ chính xác của chúng càng tăng. Mặc dù có nhiều dữ liệu là tốt, nhưng thật vô ích nếu các dữ liệu đó không đa dạng.
Có ba chữ V quan trọng trong dữ liệu lớn, cụ thể là:
-
Dung lượng (Volume): là kích thước của các tập dữ liệu cần được phân tích và xử lý.
-
Sự đa dạng (Variety): tất cả các khối dữ liệu có cấu trúc và không cấu trúc có thể được tạo ra bởi con người hoặc bởi máy móc. Sự đa dạng là rất cần thiết bởi vì nó cho phép các mô hình machine learning được đào tạo về dữ liệu có thể xử lý một phạm vi dự đoán rộng hơn.
-
Vận tốc (Velocity): Tốc độ nhận dữ liệu từ người dùng.
Thông thường, các nền tảng lớn thu thập lượng lớn dữ liệu từ các tương tác của người dùng để cải thiện dịch vụ của họ. Hầu hết các dữ liệu này được mã hóa và lưu ẩn danh. Tuy nhiên, những bộ sưu tập dữ liệu lớn này cũng có nhược điểm. Trong những năm gần đây, quyền riêng tư và bảo mật dữ liệu của người dùng đã trở thành một mối bận tâm lớn. Hầu hết các công ty hiện đã cập nhật chính sách bảo mật và áp đặt các quy tắc nghiêm ngặt về thu thập dữ liệu, bên cạnh đó là trao thêm quyền lực cho người dùng trong việc quyết định những loại dữ liệu nào có thể được thu thập.
Những ví dụ về khoa học dữ liệu và dữ liệu lớn bên trên nghe có vẻ như chúng ta đang bằng cách này hay cách khác, cố gắng cấy trí thông minh vào hệ thống máy móc? Đó chẳng phải là trí tuệ nhân tạo hay sao? Hãy tiếp tục tìm hiểu nào.
2. Trí tuệ nhân tạo (AI)
Trí tuệ nhân tạo, hay viết tắt là AI, đã xuất hiện từ giữa những năm 1950 nên không hẳn là một khái niệm mới mẻ. Nhưng nó đã trở nên cực kỳ phổ biến gần đây vì những tiến bộ trong khả năng xử lý của mình. Trở lại những năm 1900, không có những năng lực tính toán cần thiết để hiện thực hóa AI. Ngày nay, chúng ta có những máy tính nhanh nhất thế giới từ trước tới giờ, nên việc triển khai thuật toán đã cải thiện rất nhiều để ta có thể triển khai AI trên phần cứng thương mại (commodity hardware), thậm chí cả máy tính xách tay hoặc điện thoại thông minh mà bạn đang sử dụng ngay bây giờ. Và với khả năng dường như vô tận của AI, mọi người đều muốn sở hữu nó.
Nhưng chính xác trí tuệ nhân tạo là gì? Trí thông minh nhân tạo là khả năng mà máy tính có thể hiểu dữ liệu, học từ dữ liệu và đưa ra quyết định dựa trên các thể dạng (pattern) ẩn trong dữ liệu hoặc những suy luận có thể rất khó (gần như không thể) thực hiện đối với con người. AI cũng cho phép các máy móc điều chỉnh “kiến thức” của chúng dựa trên các đầu vào mới (new inputs) không phải là một phần của dữ liệu đã được sử dụng để đào tạo các máy này.
Theo một cách định nghĩa khác, AI là một tập hợp các thuật toán toán học giúp máy tính hiểu được mối quan hệ giữa các loại dữ liệu và các mảnh dữ liệu khác nhau, từ đó tận dụng sự hiểu biết về mối liên kết đó để đưa ra kết luận hoặc đưa ra quyết định mang tính chính xác rất cao.
Nhưng có một điều quan trọng là bạn cần đảm bảo có đủ dữ liệu để AI học. Nếu bạn sử dụng một hồ dữ liệu (data lake) rất nhỏ để đào tạo mô hình AI của mình, độ chính xác của dự đoán hoặc quyết định có thể thấp. Vì vậy, càng nhiều dữ liệu càng giúp tăng tính chính xác của mô hình AI. Tùy thuộc vào kích thước của tập dữ liệu đào tạo, bạn có thể chọn các thuật toán khác nhau cho mô hình của mình. Đây là nơi học máy (ML) và học sâu (DL) bắt đầu xuất hiện.
3. Máy học (Machine Learning)
Machine Learning (ML) được coi là một tập hợp con của AI. Bạn thậm chí có thể nói rằng ML là một triển khai của AI. Vì vậy, bất cứ khi nào bạn nghĩ đến việc triển khai AI, bạn cũng có thể nghĩ đến việc áp dụng ML ở đó. Như tên gọi khá rõ ràng, ML được sử dụng trong các tình huống chúng ta muốn máy học từ lượng dữ liệu mà chúng ta cung cấp, sau đó áp dụng kiến thức đó vào các phần dữ liệu mới chảy vào hệ thống. Nhưng làm thế nào để một cái máy có thể học?
Có nhiều cách khác nhau để khiến cho một cái máy học. Các phương pháp khác nhau của ML là học có giám sát (supervised learning), học không giám sát (non-supervised learning), học bán giám sát (semi-supervised learning) và học máy tăng cường (reinforced learning). Trong một số phương pháp này, người dùng cho máy biết các tính năng hoặc biến độc lập (đầu vào) là gì và biến phụ thuộc (đầu ra) là gì. Vì vậy, máy tìm hiểu mối quan hệ giữa các biến độc lập và phụ thuộc có trong dữ liệu được cung cấp. Dữ liệu được cung cấp này được gọi là tập huấn luyện (training set). Khi một khi giai đoạn học tập hoặc đào tạo hoàn tất, máy hoặc mô hình ML sẽ được kiểm tra trên một phần dữ liệu mà mô hình chưa gặp trước đó, tập dữ liệu (dataset) mới này được gọi là tập dữ liệu kiểm tra (test dataset). Có nhiều cách khác nhau để bạn có thể phân chia tập dữ liệu hiện có của mình giữa tập dữ liệu đào tạo (training dataset) và tập dữ liệu kiểm tra (test dataset). Khi mô hình đủ trưởng thành để cho kết quả đáng tin cậy và độ chính xác cao, nó sẽ được triển khai đến giai đoạn thiết lập sản xuất (production setup) để được sử dụng để giải quyết các bộ dữ liệu hoàn toàn mới ở các vấn đề như dự đoán hoặc phân loại.
Có nhiều thuật toán khác nhau trong ML có thể được sử dụng cho các bài toán dự đoán, phân loại, hồi quy và hơn thế nữa. Bạn có thể đã nghe nói về các thuật toán như hồi quy tuyến tính đơn giản (linear regression), hồi quy đa thức (polynomial), hồi quy vector hỗ trợ (support vector regression), hồi quy cây quyết định (decision tree regression), hồi quy rừng ngẫu nhiên (random forest regression), K láng giềng gần nhất (K-nearest neighbours) và tương tự. Đây là một số thuật toán hồi quy và phân cụm (clustering) phổ biến được sử dụng trong ML. Đồng thời, có rất nhiều bước chuẩn bị dữ liệu hoặc tiền xử lý (pre-processing) mà bạn cần quan tâm ngay cả trước khi đào tạo mô hình của mình. Nhưng hiện nay, các thư viện ML như SciKit Learn đã phát triển đến mức ngay cả một nhà phát triển ứng dụng (app developer) không có nền tảng về toán học hay thống kê, hoặc thậm chí là giáo dục AI chính thức cũng có thể bắt đầu sử dụng các thư viện này để xây dựng, đào tạo, kiểm tra, triển khai và sử dụng các mô hình ML trong thế giới thực. Với các kiến thức về ML này, hãy cùng nhau tiếp tục tìm hiểu về Deep Learning.
4. Học sâu (Deep Learning)
Deep Learning (DL) là một phiên bản cấp cao của ML. Mặc dù ML có tác động rất hiệu quả vào hầu hết các ứng dụng, nhưng nó cũng có những hạn chế nhất định, đó là khi mà DL được đưa vào sử dụng. Người ta thường tin rằng nếu tập dữ liệu đào tạo của bạn tương đối nhỏ thì thích hợp để sử dụng ML. DL sẽ giúp bạn giải quyết được một lượng dữ liệu khổng lồ, có quá nhiều tính năng, khi bạn cần đào tạo cả một mô hình với độ chính xác cao (độ chính xác luôn quan trọng).
Cũng cần lưu ý rằng học sâu đòi hỏi nhiều phần cứng mạnh để chạy (chủ yếu là GPU), cần nhiều thời gian hơn để đào tạo các mô hình và thường khó thực hiện hơn so với ML. Nhưng đây là một số thỏa hiệp mà bạn phải chấp nhận khi cố giải quyết một vấn đề cực kỳ phức tạp.
Một ví dụ điển hình về sức mạnh của DL là việc kiểm soát tin tức giả. Tin tức giả là một vấn đề lớn hiện nay. Các công ty đang bị kiện tứ phía vì không kiểm soát được việc truyền bá tin tức giả trên nền tảng xã hội của họ. Vì vậy, nhiều công ty như vậy đã bắt đầu sử dụng DL để phát hiện các mục tin tức giả đang được lưu hành trên nền tảng của họ và sau đó thực hiện các hành động cần thiết. Quả là một công nghệ tối tân đúng không nào?
Vai trò to lớn của chúng trong thời đại số hóa
Những chủ đề xoay quanh Data Science, AI, ML và DL rộng lớn đến mức hàng ngàn người đã dành cả cuộc đời để nghiên cứu và cải tiến những công nghệ này để đóng góp cho nhân loại.
Trong y tế, có rất nhiều tổ chức và công ty tư nhân nghiên cứu về cách chúng ta có thể sử dụng AI trong chăm sóc sức khỏe để phát hiện sớm bệnh và ngăn ngừa tử vong, điển hình là tìm ra cách chữa trị ung thư. Chẳng hạn như quang tuyến (medical imaging) cũng là một lĩnh vực đang ứng dụng AI ở mức độ lớn. Hiện nay, thế giới đang dần ghi nhận một số tiến bộ lớn trong quá trình phát hiện sớm, chính xác bệnh và biện pháp kịp thời để giảm thiểu rủi ro tử vong.
Ngành tài chính cũng đang sử dụng AI rất nhiều để phát hiện gian lận trong các giao dịch tài chính. Các tổ chức tài chính và ngân hàng có thể nghiên cứu các giao dịch, lịch sử ngân hàng và điểm tín dụng của hàng triệu người để phát hiện và ngăn chặn các vụ lừa đảo cho vay và bảo hiểm. Góp phần rất lớn trong việc tiết kiệm hàng tỷ đô la trong vài năm qua.
Cho đến các ứng dụng công nghệ phục vụ văn minh nhân loại. Bạn có thể đã nghe nói về TensorFlow, một neural network mà Google đang sử dụng rộng rãi và phân phối đến các nhà phát triển. Đó chính là một ví dụ thực tiễn về việc ứng dụng DL, vì neural networks là một kiểu mô hình DL. Những chiếc xe tự lái mà chúng ta bắt đầu thấy trong vài năm qua, chúng tự lái nhờ DL. Có rất nhiều ứng dụng về DL ngầm trong thế giới hiện đại. Ví dụ: các dịch vụ giải trí như Netflix đang sử dụng mạnh DL để cải thiện các đề xuất của họ cho bạn và cũng để quyết định dựa trên sự tham gia của người dùng rằng chương trình nào đáng để tiếp tục sản xuất, chương trình nào cần được loại bỏ nếu chúng lãng phí thời gian và tiền bạc. Hay hầu hết các trợ lý ảo (virtual assistants) mà chúng ta thấy ngày nay, chẳng hạn như Alexa và Google Assistant, sử dụng DL để hiểu các yêu cầu bạn đang thực hiện (Xử lý ngôn ngữ tự nhiên - NLP), âm điệu, cảm xúc bạn đang thể hiện và cũng để xác thực giọng nói của bạn trong một số trường hợp.
Tạm kết
Qua các khái niệm công nghệ dữ liệu (data-driven technology) mà VietnamWorks inTECH vừa cung cấp, có thể thấy trí tuệ nhân tạo (AI), máy học (ML) và dữ liệu lớn (big data) tuy có những khác biệt nhất định nhưng lại phụ thuộc lẫn nhau. Nói cách khác, chúng không thể tồn tại thiếu nhau và cùng đóng góp một phần quan trọng vào bức tranh tổng thể của sự phát triển công nghệ cao trong thời đại số hóa hiện nay.
Với tốc độ phát triển của AI, một số nhà nghiên cứu dự đoán rằng một ngày nào đó nó có thể thay thế hoàn toàn lực lượng lao động của con người. Tuy nhiên, khả năng loại bỏ con người ấy còn rất xa. Cho đến nay, các AI tiên tiến nhất vẫn thuộc loại AI hẹp, có nghĩa là chúng chỉ xuất sắc trong việc thực hiện một loại nhiệm vụ duy nhất, không giống như con người đủ thông minh và linh hoạt để thực hiện một số lượng lớn nhiệm vụ với độ chính xác cao.
Vì thế, các chuyên gia CNTT nên nắm lấy sức mạnh của bộ công nghệ dữ liệu này và ứng dụng chúng thật khôn ngoan để tạo ra các bước đột phá cho bản thân và tổ chức của bạn.
VietnamWorks inTECH
Theo TowardsDataScience
TẠO TÀI KHOẢN MỚI: XEM FULL “1 TÁCH CODEFEE” - NHẬN SLOT TƯ VẤN CV TỪ CHUYÊN GIA - CƠ HỘI RINH VỀ VOUCHER 200K