Hướng dẫn sử dụng tool đánh nhãn VietOCR Labeling

Để đánh nhãn VietOCR được nhanh chóng, chính xác chúng tôi đã viết tool dành riêng cho việc đánh nhãn tên là VietOCR Labeling.

Bạn có thể tham khảo VietOCR tại đây: https://github.com/pbcquoc/vietocr

Đây là Windows application viết bằng ngôn ngữ C# sử dụng .NET framework 4.6.1, khuyến khích chạy trên Windows 10

Dataset dùng trong bài không share được nên các bạn có thể tìm download ở nguồn khác hoặc vào repository gốc để download.

Hướng dẫn sử dụng

Load ảnh và label

Để training VietOCR bạn cần có bộ ảnh ký tự đã crop và 1 file text đánh nhãn nằm chung folder. Cú pháp của file text là đường dẫn ảnh (tương đối) và text cách nhau bằng \t (tab). Chương trình sẽ tự động load file tên label.txt trong folder.

Vào menu FILE chọn Open folder rồi chọn folder chứa ảnh. Chương trình sẽ load ảnh dựa theo số ảnh mỗi trang mà bạn chọn. Bạn cũng có thể chọn recent folder.

Mặc định chương trình load 50 ảnh mỗi trang, kèm theo đó là đường dẫn ảnh và label.

Edit label

Khi edit text xong bạn ấn nút Enter chương trình sẽ tự động save file label.txt và hiện thông báo Save thành công ở thanh status bar.

Chức năng khác

Tìm kiếm

Chương trình tìm đến ảnh có text bạn cần tìm

Tìm ảnh chưa có label

Ấn nút Find no label chương trình sẽ tìm đến ảnh chưa đánh nhãn

Xóa ảnh

Chọn ảnh và delete, chương trình sẽ confirm trước khi xóa

Chuyển đến trang khác

Bạn có thể gõ số trang cần đến, lưu ý số trang bắt đầu từ 1.

Download

https://thigiacmaytinh.com/download/VietOCRLabeling.zip (341KB)