Để đánh nhãn VietOCR được nhanh chóng, chính xác chúng tôi đã viết tool dành riêng cho việc đánh nhãn tên là VietOCR Labeling.
Bạn có thể tham khảo VietOCR tại đây: https://github.com/pbcquoc/vietocr
Đây là Windows application viết bằng ngôn ngữ C# sử dụng .NET framework 4.6.1, khuyến khích chạy trên Windows 10
Dataset dùng trong bài không share được nên các bạn có thể tìm download ở nguồn khác hoặc vào repository gốc để download.
Hướng dẫn sử dụng
Load ảnh và label
Để training VietOCR bạn cần có bộ ảnh ký tự đã crop và 1 file text đánh nhãn nằm chung folder. Cú pháp của file text là đường dẫn ảnh (tương đối) và text cách nhau bằng \t (tab). Chương trình sẽ tự động load file tên label.txt trong folder.
Vào menu FILE chọn Open folder rồi chọn folder chứa ảnh. Chương trình sẽ load ảnh dựa theo số ảnh mỗi trang mà bạn chọn. Bạn cũng có thể chọn recent folder.
Mặc định chương trình load 50 ảnh mỗi trang, kèm theo đó là đường dẫn ảnh và label.
Edit label
Khi edit text xong bạn ấn nút Enter chương trình sẽ tự động save file label.txt và hiện thông báo Save thành công ở thanh status bar.
Chức năng khác
Tìm kiếm
Chương trình tìm đến ảnh có text bạn cần tìm
Tìm ảnh chưa có label
Ấn nút Find no label chương trình sẽ tìm đến ảnh chưa đánh nhãn
Xóa ảnh
Chọn ảnh và delete, chương trình sẽ confirm trước khi xóa
Chuyển đến trang khác
Bạn có thể gõ số trang cần đến, lưu ý số trang bắt đầu từ 1.
Version
0.1.1
– Save recent folder
0.1.2
– Chọn nhiều ảnh để xóa
– Thêm option Hỏi trước khi xóa
Download
https://thigiacmaytinh.com/download/VietOCRLabeling.zip (341KB)