30 Project tuyệt vời về Machine Learning trong năm 2018

Trong năm qua, chúng tôi đã so sánh 8800 dự án mã nguồn mở (project) để chọn ra Top 30 dự án. Cơ hội để các dự án vào Top 30 chỉ là 0.3%.

Đây là danh sách các project tốt nhất được chọn lựa rất cẩn thận từ các thư viện mã nguồn mở ứng dụng Machine Learning. Các ứng dụng này được phát hành từ tháng 1 đến tháng 12 năm 2017. Tổ chức Mybrigde AI đánh giá chất lượng qua các tiêu chí như mức độ phổ biến, sự đóng góp của người dùng và sức ảnh hưởng.

Điểm trung bình của các project trên github là 3,558 ⭐, ở mỗi project sẽ có số điểm để bạn hình dung chất lượng của project.

Các project nguồn mở có thể hữu ích cho các Data scientists (các nhà khoa học dữ liệu). Bạn có thể học bằng cách đọc các mã nguồn đó và xây dựng một sản phẩm nào đó trên nền tảng những project này.

Số 1: FastText

[11786 ⭐️ trên Github]
Thư viện mã nguồn mở, cho phép người dùng tìm hiểu các biểu diễn văn bản và phân loại văn bản.

Một dự án nổi bật sử dụng FastText là Word Embedding xử lý đa ngôn ngữ bằng phương pháp học không giám sát hoặc có giám sát [695 ⭐️ trên Github].

Số 2: Deep-photo-stylestransfer

[9747 ⭐️ trên Github]
Phần mềm cho phép áp dụng style của ảnh này lên ảnh khác, cho đầu ra là ảnh có style mới

Được cung cấp bởi Tiến sĩ Fujun Luan trường đại học Cornell.

Số 3: face_recognition

[8672 ⭐️ trên Github]
API nhận dạng khuôn mặt đơn giản nhất viết bằng Python.

Được cung cấp bởi Adam Geitgey.

Số 4: Magenta

[8113 ⭐️ trên Github]
Tạo ra các sản phẩm nhạc, hình ảnh, hình vẽ,… chủ yếu sử dụng phương pháp học sâu và học tăng cường

Số 5: Sonnet

[5731 ⭐️ trên Github]
Thư viện được xây dựng trên nền tảng thư viện TensorFlow dựa trên Neural Network

Được cung cấp bởi Malcolm Reynold tại Deepmind.

Số 6: Tensor-flow js

[5462 ⭐️ trên Github]
Cho phép bạn lập trình ứng dụng Tensor-flow bằng javasript.

Được cung cấp bởi Nikhil Thorat tại Google Brain.

Số 7: Fast Style Transfer

[4843 ⭐️ trên Github]
Chuyển ảnh chụp thành ảnh vẽ, tương tự như ứng dụng trong mục số 2 – Deep Style Transfer

Dược cung cấp bởi Nikhil Thorat tại Google Brain.

Số 8: Starcraft II Learning Environment (PYSC2)

[3683⭐️ trên Github]
DeepMind cùng đối tác Blizzard đã phát hành PYS2, nó có thể học cách chơi game của con người với trò chơi nổi tiếng Star Craft.

Được cung cấp bởi Timo Ewalds tại DeepMind.

Số 9: AirSim

Chương trình giả lập được xây dựng trên Unreal Engine cho các drone, máy bay, ô tô, … không người lái từ viện nghiên cứu Microsoft AI & Research [3861⭐️ trên Github]

Được cung cấp bởi Shital Shah tại Microsoft.

Số 10: Facets

[3371⭐️ trên Github]
Dùng để trực quan hóa bộ dữ liệu Machine Learning: vẽ biểu đồ, gom nhóm dữ liệu,.. để các nhà nghiên cứu dễ dàng làm việc hơn với bộ dữ liệu của mình

Được cung cấp bởi Google Brain.

Số 11: Style2Paints

[3310 ⭐️ trên Github]
Tô màu cho hình ảnh bằng AI

Số 12: Tensor2Tensor

[3087⭐ trên Github]
Tensor2Tensor: là một thư viện gồm các mô hình và bộ dữ liệu Deep Learning giúp dễ dàng dụng Tensor Flow hơn.

Được cung cấp bởi Ryan Sepass tại Google Brain.

Số 13: CycleGAN and pix2pix in Pytorch

[2847 ⭐ ️trên Github]
Chuyển đổi từ hình ảnh đầu vào sang hình ảnh mới có nội dung dựa trên ảnh đầu vào và khác về tính chất, project được viết bằng PyTorch (ví dụ horse2zebra, edge2cats, và nhiều chuyển đổi khác)

Được cung cấp bởi tiến sĩ Jun-Yanzhu tại Berkeley.

Số 14 Faiss

[2629 ⭐ ️trên Github]
Một thư viện để tìm kiếm dữ liệu hiệu quả hơn đối với các tập dữ liệu lớn
Được cung cấp bởi nhóm nghiên cứu của Facebook.

Số 15 Fashion-mnist

[2780 ⭐ ️trên Github]
MNIST – cơ sở dữ liệu sản phẩm thời trang. Bộ dữ liệu này bao gồm một trainset gồm 60.000 mẫu và testset gồm 10.000 mẫu. Mỗi ảnh mẫu là một ảnh xám kích cỡ 28×28 gán với một nhãn từ lớp thứ 10 và dự định sẽ thay thế bộ dữ liệu MNIST ban đầu (bộ dữ liệu chuẩn cho các thuật toán Machine Learning)

Được cung cấp bởi Han Xiao, nhà nghiên cứu khoa học Zalando Tech.

Số 16: ParlAI

[2578 ⭐️ trên Github]
Một framework dùng để huấn luyện và đánh giá các mô hình AI trên nhiều bộ dữ liệu có sẵn.

Được cung cấp bởi Alexander của nhóm nghiên cứu của Facebook.

Số 17: Fairseq

[2571⭐️ trên Github]
Bộ công cụ dịch thuật theo mô hình Sequence-to-Sequence (phương pháp học theo chuỗi liên tiếp).

Được cung cấp bởi nhóm nghiên cứu AI của Facebook.

Số 18 Pyro

[2387⭐️ trên Github]
Lập trình xác suất thống kê bằng ngôn ngữ Python và thư viện PyTorch. Mục tiêu của Pyro là tăng tốc độ nghiên cứu và ứng dụng các kỹ thuật này, làm cho chúng dễ tiếp cận hơn với cộng đồng AI rộng lớn.

Cung cấp bởi phòng thí nghiệm AI của Uber.

Số 19: iGAN

[2369 ⭐️ trên Github]
Tạo hình ảnh tương ứng với nét vẽ của người dùng. Cung cấp bởi GAN

Số 20: Deep-image-prior

[2188⭐️ trên Github]
Phục hồi hình ảnh bằng Neural Network mà không cần học. Ứng dụng vào việc lọc nhiễu, khôi phục hình ảnh & nội suy hình ảnh.

Cung cấp bởi tiến sĩ Dmitry Ulyanov tại Skoltech.

Số 21: face_classification

[1967⭐️ trên Github]
Phát hiện khuôn mặt theo thời gian thực và phân loại cảm xúc/giới tính bằng cách sử dụng bộ dữ liệu fer2013/imdb với mô hình CNN keras và openCV.

Số 22 Speech-to –Next-WaveNet

[1961⭐️ trên Github]
Nhận dạng giọng nói tiếng Anh bằng DeepMind sử dụng WaveNet và TensorFlow. Cung cấp bởi Namju Kim tại Kakao Brain.

Số 23 StarGAN

[1954 ⭐️ trên Github]
Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. Chuyển đổi khuôn mặt thành người khác bằng cách thay đổi các đặc trưng như màu da, màu tóc,…

Cung cấp bởi Yunjey Choi ở đại học Hàn Quốc.

Số 24 MI-agent: Unity Machine Learning Agents.

[1658 ⭐️ trên Github]
Plugin mã nguồn mở cho phép lập trình game AI bằng Unity. Cung cấp bởi Arthur Juliani, Deep Learning at Unity3D.

Số 25 DeepVideoAnalytics

[1494⭐️ trên Github]
Phân tích thông tin từ video. Cung cấp bởi tiến sĩ Akshay Bhat tại trường đại học Cornell.

Số 26 OpenNMT

[1490⭐️ trên Github]
Ứng dụng để dịch thuật

Số 27 Pix2pixHD

[1283⭐️ trên Github]
Tổng hợp và xử lý hình ảnh dựa vào hình vẽ của người dùng. Cung cấp bởi Ming-Yu Liu tại AI Research Scientist at Nhà Nghiên cứu khoa học ở Nvidia.

Số 28 Horovod

[1188⭐️ trên Github]
Mục tiêu là sử dụng Deep Learning nhanh và dễ sử dụng hơn. Cung cấp bởi các kỹ sư của Uber.

Số 29 AI-Blocks

[899⭐️ trên Github]
Giao diện WYSIWYG mạnh mẽ và trực quan cho phép mọi người tạo các mô hình Machine Learning

WYSIWYG – What you see is what you get. Nghĩa là bạn không cần phải viết mã phức tạp mà có thể sử dụng UI

Số 30 deep-voice-conversion

[845⭐️ trên Github]
Deep Neural Network để chuyển đổi giọng nói (chuyển kiểu giọng nói) trong Tensorflow. Giúp cho người dùng có thể hát như ca sĩ.

Cung cấp bởi DabiAhn, nhà nghiên cứu AI tại Kakao Brain.

Phần kết của người dịch

Trên đây là bài dịch tóm tắt các project nguồn mở Machine Learning. Chúng tôi sẽ viết riêng từng bài về các ứng dụng hay để các bạn có thể sử dụng thử.

Nguồn