Từ dạo tham gia mail đàn XDTV và blog iCVA, nhu cầu viết tiếng Việt của chúng tôi tăng lên nhanh chóng. Một điều phiền toái là chúng tôi dùng nhiều máy khác nhau, nhiều máy không phải là của riêng mình cho nên không tiện cài bộ gõ tiếng Việt lên máy nào cả.
Lúc đầu thì cứ lờ đi, viết tiếng Việt không dấu. Có lần hình như có ai đây nhắc nhở trên mail đàn. Với bạn bè ngang hàng thì có khi cũng vẫn cứ lờ đi thôi. Nhưng ở đây có nhiều bậc đàn anh đàn chị nên có lẽ phải cân nhắc một chút. Lại kỳ cạch trèo lên một trang web trên mạng có cài đặt chương trình gõ tiếng Việt để viết. Nhưng vì mới tập gõ tiếng Việt, mà lại không gõ thường xuyên nên mỗi lần viết email, bài iCVA là một lần gõ kỳ cạch, rất công phu.
Nhân đọc một loạt bài báo về xử lý ngôn ngữ tự nhiên, trong tiếng Anh và trong tiếng Việt, chúng tôi mới nảy ra ý là làm một chương trình để nó tự động điền dấu tiếng Việt cho mình đỡ mệt.
Chúng tôi hỳ hụi vừa làm vừa thử, thấy cũng vui vui. Hôm nay, cũng là một ngày đẹp trời, làm xong một bản (tạm dùng cho thử nghiệm được), để viết tiếng Việt trên web, dùng Firefox, Chrome, và Safari. Xin giới thiệu Viết với mọi người[1].
Mặc dù cũng biết là ở nhà thì trên máy của mọi người ai cũng đều đã cài tiếng Việt cả rồi, những biết đâu vẫn còn người nào đó cùng ở trong tình trạng như chúng tôi, muốn gõ tiếng Việt nhanh mà lại không muốn hoặc là ngại "điên đầu"[2].
Chắc chắn là bản thử nghiệm đầu tiên này có rất nhiều thiếu sót và lỗi. Chẳng hạn như không chạy được trên Internet Explorer, phần gõ tiếng Việt (bằng tay) theo kiểu Telex, VNI và VIQR vẫn còn có lỗi,...
Dùng cái chương trình tự điền dấu Viết này lắm lúc chúng tôi cười vỡ bụng vì nó "điên đầu" lung tung, làm cho ý nghĩa ban đầu bị bóp méo lệch lạc, đọc lại thấy ngạc nhiên không hiểu mình viết cái gì mà nó lại ra thế này ;)
Nếu ai dùng Viết mà thấy nó điền dấu bậy bạ tức cười thì xin chia xẻ với XDTV và chúng tôi, để cùng cười cho vui.
Ngoài ra, phần mềm Viết này thực ra cùng khá dễ bảo. Nếu cái gì nó không biết, điền dấu nhầm, mà dạy cho nó thì lần sau có nhiều khả năng là nó sẽ sửa được, không mắc lỗi đó nữa[3].
Có một vài ý đồ hay, nảy ra trong lúc làm Viết, khi nào có thời gian chúng tôi sẽ lại tiếp tục. ACE nào quan tâm hoặc có ý tưởng gì có thể chia sẻ được thì cho chúng tôi biết, rất cám ơn.
Chúc cả nhà XDTV một ngày vui vẻ,
Viết teamLúc đầu thì cứ lờ đi, viết tiếng Việt không dấu. Có lần hình như có ai đây nhắc nhở trên mail đàn. Với bạn bè ngang hàng thì có khi cũng vẫn cứ lờ đi thôi. Nhưng ở đây có nhiều bậc đàn anh đàn chị nên có lẽ phải cân nhắc một chút. Lại kỳ cạch trèo lên một trang web trên mạng có cài đặt chương trình gõ tiếng Việt để viết. Nhưng vì mới tập gõ tiếng Việt, mà lại không gõ thường xuyên nên mỗi lần viết email, bài iCVA là một lần gõ kỳ cạch, rất công phu.
Nhân đọc một loạt bài báo về xử lý ngôn ngữ tự nhiên, trong tiếng Anh và trong tiếng Việt, chúng tôi mới nảy ra ý là làm một chương trình để nó tự động điền dấu tiếng Việt cho mình đỡ mệt.
Chúng tôi hỳ hụi vừa làm vừa thử, thấy cũng vui vui. Hôm nay, cũng là một ngày đẹp trời, làm xong một bản (tạm dùng cho thử nghiệm được), để viết tiếng Việt trên web, dùng Firefox, Chrome, và Safari. Xin giới thiệu Viết với mọi người[1].
Mặc dù cũng biết là ở nhà thì trên máy của mọi người ai cũng đều đã cài tiếng Việt cả rồi, những biết đâu vẫn còn người nào đó cùng ở trong tình trạng như chúng tôi, muốn gõ tiếng Việt nhanh mà lại không muốn hoặc là ngại "điên đầu"[2].
Chắc chắn là bản thử nghiệm đầu tiên này có rất nhiều thiếu sót và lỗi. Chẳng hạn như không chạy được trên Internet Explorer, phần gõ tiếng Việt (bằng tay) theo kiểu Telex, VNI và VIQR vẫn còn có lỗi,...
Dùng cái chương trình tự điền dấu Viết này lắm lúc chúng tôi cười vỡ bụng vì nó "điên đầu" lung tung, làm cho ý nghĩa ban đầu bị bóp méo lệch lạc, đọc lại thấy ngạc nhiên không hiểu mình viết cái gì mà nó lại ra thế này ;)
Nếu ai dùng Viết mà thấy nó điền dấu bậy bạ tức cười thì xin chia xẻ với XDTV và chúng tôi, để cùng cười cho vui.
Ngoài ra, phần mềm Viết này thực ra cùng khá dễ bảo. Nếu cái gì nó không biết, điền dấu nhầm, mà dạy cho nó thì lần sau có nhiều khả năng là nó sẽ sửa được, không mắc lỗi đó nữa[3].
Có một vài ý đồ hay, nảy ra trong lúc làm Viết, khi nào có thời gian chúng tôi sẽ lại tiếp tục. ACE nào quan tâm hoặc có ý tưởng gì có thể chia sẻ được thì cho chúng tôi biết, rất cám ơn.
Chúc cả nhà XDTV một ngày vui vẻ,
Chú thích:
[1] Viết (νιετεs) http://viet.ichuvanan.org
[2] Xem clip "Viết"
[3] Xem clip "Dạy νιετ"
Cách điền dấu trong tiếng Việt (Tài liệu tham khảo)
1./ tiếng Việt có bao nhiêu nguyên âm đơn http://vi.wikipedia.org/wiki/Qu%E1%BB%91c_ng%E1%BB%AF2./ Quy tắc đặt dấu thanh trong tiếng Việt http://vi.wikipedia.org/wiki/Quy_t%E1%BA%AFc_%C4%91%E1%BA%B7t_d%E1%BA%A5u_thanh_trong_ti%E1%BA%BFng_Vi%E1%BB%87t
3./ HAI CÁCH ĐÁNH DẤU TRONG CHÍNH TẢ TIẾNG VIỆT http://www.vannghechunhat.net/giu-gin-tieng-viet/chu-va-ngha/5813--HAI-C%C3%81CH-%C4%90%C3%81NH-D%E1%BA%A4U-TRONG-CH%C3%8DNH-T%E1%BA%A2-TI%E1%BA%BENG-VI%E1%BB%86T.html
4./ Quy tắc http://vietlex.com/vietnamese/quytacbodau.html
5./ The right place of the Vietnamese accent http://just.nicepeople.free.fr/Vietnamese-Typing.htm#PlaceOfAccent
6./ Âm vị và các hệ thống âm vị tiếng Việt http://ngonngu.net/index.php?p=64
7./ http://vietsciences.free.fr/vietnam/tiengviet/tiengvietchico36amvi.htm
8./ Các dấu câu trong tiếng Việt (phần 3) http://ngonngu.net/index.php?p=92
Vẫn biết negative PR là tốt cho ... toy business nhưng vẫn phải cẩn thận. Vì thế vừa phải thử viết mấy mẩu tin nhắn không dấu nhặt được trên mạng:
ReplyDelete"anh oi, bo me em khong co nha, em dang coi quan, den ngay di anh, muon lam roi"
"me dang om 1 thang nam tren giuong, bo ve ngay"
"cac con di hoc het, em dang o truong, anh ve nha ngay"
Thử câu của Tuấn:
ReplyDeletephan mem "viet" nay cu liu la liu lo nhu nguoi Son Tay noi tieng Viet y... ;)))
Ba Vi co con bo vang,
Ba Ria co ri sot Long Hai ...
"moi anh vao hang em uong nuoc ..., nuoc hang em ngon lam ..."
"viết" cho kết quả:
phần mềm "viết" này cũ líu la líu lô như người Sơn Tây nói tiếng Việt ý... ;)))
Ba Vì có con bò vàng,
Bà Rịa có rỉ sốt Long Hải ...
"mời anh vào hàng em uống nước ..., nước hàng em ngon lắm ..."
Về các cách điền dấu trong tiếng Việt:
ReplyDeleteLúc đầu Hải cũng thuộc trường phái aesthetics trong chuyện điền dấu cho tiếng Việt (cũng có thể gọi là trường phái cũ, bảo thủ). Nhưng sau khi đọc bài của anh NM Hải thì mới hiếu được rằng chữ viết latin+dấutrong tiếng Việt thực chất là cách ghi lại các âm nói trong tiếng Việt. Vì thế nên mới có đề nghị thay đổi để cho nó hệ thống hơn, nhất quán hơn theo IPA.
Nghĩa là khoa học hơn, dễ dạy cho trẻ em và cũng dễ truyền bá rộng rãi hơn.
Xin chép lại một số nhận xét về "viết" của anh Công Thành trong mail đàn dưới đây. Rất cám ơn anh đã dành thời gian review "viết".
ReplyDeleteSW đã đáp ứng được những yêu cầu sau:
1/ Người viết đánh đầy đủ các ký hiệu theo kiểu TELEX hoặc VNI (tôi chưa thử) thì sẽ thu được đoạn mã tương ứng. SW thay cho chương trình gõ tiếng Việt thông thường.
2/ Người viết đánh một đoan chữ không dấu bất kỳ, sau ký hiệu ngắt câu SW sẽ cho ra đoạn chữ có dấu theo cách "hiểu" của sw tại thời điểm đó. Lưu ý là cùng một ký tự ví dụ như "dau" có lúc sw cho ra kết quả là "dấu" là "đầu" hay "đâu" hoặc "dâu", "dậu"... Bởi vậy để giúp sw nhận diện được từ mình muốn biểu hiện người viết nện thêm ký tự ví dụ như đánh chữ "đ" để sw khỏi phải chọn phương án d hay đ.
3/ Việc bắt sw phải hiểu ngữ pháp trong cả câu (hoặc cả đoạn văn) là không thể. SW chỉ tác dụng từ đầu mỗi câu cho đến dấu ngắt câu tiếp theo. Cho nên để viết từ ít sử dụng, người viết tốt nhất là gõ toàn bộ từ.
4/ VH có nói là đây là sw "thông minh" có thể học được qua thực tiễn, Tôi vẫn chưa hiểu rõ lắm. Hiện nay có những sw như trong môn CỜ có thể tích lũy kinh nghiệm từ book hoặc store và hầu như không có Đại kiện tướng nào có thể địch được! Điều này dưa trên cơ sở bộ nhớ của máy tính gần như là vô hạn.
Chắc bộ nhớ dành cho sw này cũng không cần lớn lắm phải không VH? Và nó có cơ chế tích lũy sau mỗi lần xử lý?
5/ Thực chất của sw này là diễn giải cách viết tắt của người Việt, một trong những cách viết đó là viết không dấu nhưng đủ chữ. Vậy thì VH nên tích hợp vào đây những cách viết tắt khác ví dụ như cách viết tắt đầu cuối: chữ "không" được viết thành "khg" hoặc "ko"... hoặc cách viết tắt kết hợp với dấu (bớt chữ nhưng có dấu), hoặc những cách viết tắt khác mà hiện nay giới trẻ dùng trong chatting...
6/ Ứng dụng của sw này theo tôi khả thi nhất là cho điện thoại di động. Vì trên phương tiện này viết ra một đoạn chữ có dấu là khó hơn nhiều so với viết trên máy tính. Kết hợp với các hình tượng sẵn có của điện thoại di động, sw này chắc chắn có tương lai tốt.
Cách nhìn của anh NCT cũng tương đối thú vị, v.d điểm #5.
Delete#6:
Đúng như anh nói, ứng dụng vào điện thoại di động có lẽ là có triển vọng nhất.
Nếu để ý thì sẽ thấy trong tiếng Việt khoảng 1/5 - 1/4 số lượng các ký tự gõ vào là dấu. Vì thế, trên lý thuyết "viết" có thể giúp cho người ta viết nhanh tới 20-25%
Muốn vậy thì độ chính xác phải cao hơn hiện nay rất nhiều, vì sửa chữ đánh dấu sai trên điện thoại đi động cũng có thể mất thì giờ tới mức triệt tiêu luôn cả cái lợi đạt được nhờ điền dấu tự động.
#4:
Điều mà anh nghi ngại cũng đúng luôn: muốn nâng cao độ chính xác thì sẽ đòi hỏi nhiều bộ nhớ hơn, theo tỷ lệ số mũ của N, N hiện nay là vào khoảng 50-60 ngàn.
Nói chung là còn rất nhiều việc phải làm ạ.
Nhặt được cái này trên web, cũng hay:
ReplyDelete[im] https://lh5.googleusercontent.com/-vZCrSc0ac2k/UYF2yFKj2mI/AAAAAAAAA9E/QrFgxVw6DdU/s479/viet%2520tieng%2520Viet%2520khong%2520dau.png [/im]
Tiếng Việt: ‘Cần bỏ dấu sắc để... tiết kiệm’
ReplyDelete- Tấn Phước (Hà Nội)
Chuyện là thế này, mình tên là Phước, mà khi viết không dấu, cũng vẫn đọc là Phươc như có dấu. Mình để ý và làm một cái bảng thống kê thấy rằng trên 49% các vần của tiếng Việt có dạng tương tự, tức là không cần dấu sắc vẫn đọc như có dấu. Cụ thể, các vần cơ bản trong tiếng Việt là:
[im] https://lh3.googleusercontent.com/-6EvQ7I6BhZQ/UYF4-FNpqXI/AAAAAAAAA9Y/zWIz9Z3Eo1g/s480/van_tieng_viet.jpg [/im]
Vần tiếng Việt
Tiếng Việt có cơ bản 6 thanh là sắc, hỏi, huyền, ngã, nặng và bằng. Nhưng để phục vụ mục đích bài viết này, chúng ta không xét tới thanh bằng làm gì, vì nó không xuất hiện trong bản in.
Vậy, về mặt tỷ lệ, ta thấy dấu Sắc chiếm 1/5 tổng số dấu, tức là xấp xỉ 20% các chữ tiếng Việt có dấu.
Như bảng trên đã thể hiện, số vần không cần tới dấu sắc chiếm 49% tổng số các vần, vậy gộp hai cái lại, số vần không cần dấu sắc đạt tới gần 9,86% tổng số từ bị ảnh hưởng bởi dấu của tiếng Việt, làm tròn con số này tới 10% cho dễ tính.
Có thể nói, nếu 10% số chữ này được giảm dấu đi, chúng ta sẽ tiết kiệm được rất nhiều thời gian trong việc đánh máy. Giả sử, trung bình mỗi chữ có 7 lần gõ phím, mà dấu chiếm 1 lần gõ, vậy ta có thể tiết kiệm được 1/7, tức là 14%. Vì dấu sắc chỉ chiếm 10% tổng ảnh hưởng trong tiếng Việt, nên ta sẽ có được số lần gõ được tiết kiệm nếu không có dấu Sắc ở 34 vần không cần thiết là 1,4%. Số 1,4% tuy là rất nhỏ, nhưng nếu xét chung cho cả hệ thống đảm bảo các văn bản thì sẽ là rất lớn. Giả sử, mỗi trang đánh máy mất 10 phút. Một năm có khoảng 1 tỷ trang cần đánh máy, vậy mất 10 tỷ phút, tương đương 166.666.666 giờ. Nếu tiết kiệm 0,7 % (1,4%*49%) số giờ này, ta sẽ có 1.123.222 giờ. Theo giá công giờ bình quân khoảng 50.000 VND/giờ hiện nay, quy ra tiền sẽ đạt gần 60 tỷ VND.
Ngoài việc tiết kiệm số giờ, việc bỏ dấu còn tiết kiệm tiền cho giấy in và mực in. Giả sử có với 1 tỷ trang cần đánh máy và như vậy có tầm 100 tỷ trang giấy 4A cần phải được in. Vẫn với tỷ lệ như trên ta sẽ tiết kiệm được 700 triệu trang giấy, mực và chi phí hao mòn thiết bị in. Cứ tính giá in hiện nay trên thị trưởng khoảng 5000 đồng làm chuẩn, thì mỗi năm số tiền tiết kiệm được sẽ là: 3,5 ngàn tỷ. Đến đây có thể nói rằng, nếu bỏ dấu sắc ở các vần không cần dấu sắc trong tiếng Việt, mỗi năm ta có thể tiết kiệm khoảng hơn 3,5 ngàn tỷ VND. Đây có thể là một con số không lớn trong nền kinh tế, nhưng rất có ý nghĩa trong việc tiết kiệm và xây dựng. Nếu chỉ cần 10% số đó cũng đủ tiền xây 1 cây cầu nhỏ giúp các em nhỏ vùng dân tộc thiểu số khó khăn để các em khỏi phải bơi suối đi học. Đây chỉ là ý kiến cá nhân để chúng ta cùng suy ngẫm.
Nguồn Megafun.vn