Hướng dẫn chạy Deepseek OCR trên Windows 10

Mục lục

Tiền đề bài viết

DeepSeek-OCR là một mô hình nhận diện ký tự quang học (OCR: Optical Character Recognition) được phát triển bởi DeepSeek AI – một công ty AI tại Trung Quốc.

DeepSeek-OCR mới vừa ra đời không lâu nhưng đã thu hút sự chú ý bởi khả năng nhận diện ký tự rất chính xác và quan trọng là chạy offline. Vì vậy, đây là 1 công nghệ giàu tiềm năng ứng dụng trong tương lai.

Bài viết này sẽ hướng dẫn các bạn trải nghiệm Deepseek OCR nhanh chóng và dễ dàng nhất.

Lưu ý: bạn cần có GPU NVIDIA hỗ trợ CUDA để chạy.

Giới thiệu về Deepseek OCR

DeepSeek-OCR sử dụng một kiến trúc hai thành phần chính:

  • DeepEncoder: bộ mã hoá hình ảnh – nó nhận vào hình ảnh (chẳng hạn một trang scan) rồi chuyển đổi thành các “vision tokens” (tức là các đại diện số học cho vùng hình ảnh) thông qua một kiến trúc kết hợp giữa perception local (ví dụ như SAM-type attention) và global understanding (ví dụ như CLIP-type).
  • DeepSeek3B-MoE (Mixture-of-Experts) decoder: thành phần giải mã – nó nhận các vision tokens đã được nén rồi tái cấu trúc thành văn bản bằng cách sử dụng mô hình ngôn ngữ dạng Mixture-of-Experts.

Một yếu tố rất khác ở DeepSeek-OCR là optical context compression (nén bối cảnh thông qua bản đồ 2D hình ảnh) — tức là mô hình không chỉ xem hình ảnh để lấy ký tự mà sử dụng việc “render hình ảnh từ văn bản/hoặc từ hình ảnh tài liệu” như một bước trung gian để giảm số lượng token cần xử lý khi so với việc chỉ xử lý văn bản thuần túy.

VD: việc chuyển một trang văn bản sang hình ảnh rồi từ hình ảnh đó trích văn bản lại cho phép giảm tỷ lệ token tới 7-20 lần so với việc dùng token chỉ từ văn bản.

Ngoài ra, mô hình hỗ trợ chế độ đa độ phân giải (“multi-resolution design”) để xử lý các tài liệu có kết cấu phức tạp (bảng biểu, nhiều cột, ảnh chụp màn hình, v.v) hiệu quả hơn.

Cuối cùng, DeepSeek-OCR được phổ biến rộng rãi dưới dạng open-source để bạn chạy trên máy tính của mình.

Giới thiệu về deepseek_ocr_app

https://github.com/rdumasia303/deepseek_ocr_app

Repository này có tên DeepSeek OCR – React + FastAPI, được phát triển bởi rdumasia303. Đây là một ứng dụng web hoàn chỉnh (frontend + backend) sử dụng mô hình DeepSeek‑OCR để thực hiện nhận diện và trích xuất văn bản từ hình ảnh (OCR) với giao diện người dùng hiện đại.

Ứng dụng kết hợp Frontend: React 18 + Vite 5 + Tailwind CSS + Framer Motion và Backend: FastAPI + PyTorch + Transformers.

Với giao diện đẹp, chạy mượt mà ổn định thì đây là 1 repository rất tốt để các bạn trải nghiệm.

Chức năng của chương trình:

  • Chuyển hóa hình ảnh scan, ảnh chụp, file chứa văn bản (hóa đơn, báo cáo, sách…) thành văn bản
  • Bạn có thể tìm một từ/ngữ trong hình ảnh, và ứng dụng sẽ đánh dấu vị trí với hộp bounding box.
  • Tạo mô tả thông minh cho hình ảnh: bản ứng dụng hỗ trợ chế độ “Describe” – cho phép mô hình mô tả nội dung hình ảnh
  • Bạn có thể nhập prompt của riêng bạn để làm nhiệm vụ chuyên biệt

Hướng dẫn cài đặt

Hướng dẫn cài đặt backend

Cài đặt CUDA và cuDNN

Cài đặt CUDA 11.8 (hoặc mới hơn)

https://developer.nvidia.com/cuda-11-8-0-download-archive

Cài đặt cuDNN 8.6.0 cho CUDA 11.x, lưu ý bạn cần đăng ký NVIDIA deveploper

https://developer.nvidia.com/rdp/cudnn-archive

Cài đặt xong restart PC

Cài đặt Python 3.10 x64

https://www.python.org/ftp/python/3.10.0/python-3.10.0-amd64.exe

Cài đặt xong restart PC

Cài đặt virtual environment (tùy chọn)

Vào folder backend tạo virtual environment

virtualenv venv

Active virtual environment

venv\Scripts\activate

Cài đặt Python package

pip install -r requirements.txt

Cài đặt PyTorch CUDA

pip install torch --index-url https://download.pytorch.org/whl/cu118

Cài đặt frontend

Cài đặt NodeJS 18.20

https://nodejs.org/dist/v18.20.0/node-v18.20.0-x64.msi

Cài đặt JS packages

Vào folder frontend cài đặt JS packages bằng lệnh:

npm install

Lệnh này sẽ cài packages vào folder node_modules, dung lượng sau khi cài khoảng 100MB

Chạy web server

Chạy backend

Chạy file start_backend.bat hoặc chạy lệnh sau trong folder backend

python -m uvicorn main:app --host 0.0.0.0 --port 8000

Chương trình sẽ tự động download model Deepseek OCR

Chạy frontend

Chạy file start_frontend.bat hoặc chạy lệnh sau trong folder frontend

npm run dev

Vậy là bạn có thể truy cập webserver tại địa chỉ: http://localhost:3000 và sử dụng các chức năng.

Chúc các bạn thành công

Link Github

Link repository có sửa 1 số package cho phù hợp

Leave a Reply