Còn file ở dạng scan thì khó hơn đấy
Thường trong các máy scan hiện đại ngày nay luôn có phần mềm nhận dạng chữ viết đi kèm và ta có thể chuyển ngay thành định dạng văn bản tuy nhiên do nước ngoài sản xuất nên không có nhận dạng chữ tiếng việt.
Cũng có một số công ty phần mềm trong nước phát triển chương trình này, mình cũng có nghe nói một số chương trình như vnDocr nhưng chưa thử bao giờ, thấy bảo cũng chính xác ra phết.
Tầm hiểu biết của mình rất hạn chế. Bạn thử tìm hiểu tiếp xem
Chúc thành công