Thứ Sáu, 12 tháng 5, 2017

"Máy dịch" là dịch thuật tự động trên máy tính, ko mang sự tham gia của con người, phân biệt có "người dịch". Hiện nay, những công cụ dịch trực tuyến mới chỉ hoạt động sở hữu dưới 100 trong số sắp 7.000 ngôn ngữ trên thế giới. 1 kỹ thuật mới có thể thay đổi điều đó.

Ước tính hiện mang 6.900 ngôn ngữ khác nhau mà con người đang tiêu dùng. Hơn 1 nửa dân số toàn cầu giao tiếp bằng cách tiêu dùng các ngôn ngữ rộng rãi như tiếng Trung, tiếng Anh, tiếng Hindi, tiếng Tây Ban Nha và tiếng Nga. Thực tế, 95% dân số thế giới chỉ dùng 100 ngôn ngữ để giao tiếp.

những nhà ngôn ngữ học ước tính rằng khoảng một phần ba số ngôn ngữ trên thế giới chỉ có dưới một.000 người nói. Những ngôn ngữ này có thể biến mất trong vòng 100 năm đến, mang đi theo di sản văn hoá độc đáo mà chúng đựng đựng: các thành ngữ, những câu truyện cười, các phương thuốc thảo dược và thậm chí là những cảm xúc độc đáo.

Liệu máy học (machine learning) với thể giúp bảo tồn những ngôn ngữ này hay không? Vấn đề là quá trình máy dịch dựa vào những bộ dữ liệu siêu to đã được chú thích. Lượng dữ liệu này bao gồm phổ biến sách, bài báo và trang web đã được dịch sang những ngôn ngữ khác theo bí quyết thủ công. Tập dữ liệu càng lớn, máy dịch càng rẻ.

 Dữ liệu càng lớn, máy dịch càng tốt.

Dữ liệu càng to, máy dịch càng thấp.

>>> Xem thêm: dịch vụ cho thuê máy photocopy giá tốt tại hà nội

Nhưng các bộ dữ liệu khổng lồ này không tồn tại đối với toàn bộ những ngôn ngữ. Ấy là lý do tại sao máy dịch chỉ hoạt động sở hữu 1 phần siêu nhỏ trong số các ngoại ngữ nhiều nhất. Ví dụ, Google Translate, chỉ làm cho việc được với khoảng 90 ngôn ngữ. Vì thế 1 thách thức quan trọng đối với những nhà ngôn ngữ học là tậu ra phương pháp phân tích tự động những ngôn ngữ ít rộng rãi để hiểu rõ hơn về chúng.

vừa rồi, Ehsaneddin Asgari và Hinrich Schutze tại Đại học Ludwig-Maximilian ở Munich (Đức) kể rằng họ đã làm được điều ấy.

cách tiếp cận của họ tập trung vào những yếu tố quan trọng của đa số ngôn ngữ, từ đấy tạo ra một bước đệm cho máy dịch.

khoa học mới này dựa trên một văn bản duy nhất đã được dịch sang ít nhất 2.000 ngôn ngữ khác nhau. Ấy chính là Kinh thánh. Họ đã tạo ra một cơ sở dữ liệu được gọi là Parallel Bible Corpus, bao gồm bản dịch Tân Ước của một.169 ngôn ngữ. Bộ dữ liệu này ko đủ lớn cho máy dịch như của Google hay 1 số nền tảng khác. Do vậy, Asgari và Schutze đã đưa ra 1 phương pháp tiếp cận khác dựa trên cách thức thời gian xuất hiện (tense - thì/thời) trong những ngôn ngữ khác nhau.

tất cả những ngôn ngữ tiêu dùng các từ, cụm từ cụ thể để thể hiện các thì. Bởi vậy, thủ thuật mới là xác định thủ công những tín hiệu này bằng nhiều ngôn ngữ và sau ấy dùng công nghệ khai thác dữ liệu (data-mining) vào các bản dịch khác nhằm chọn kiếm từ hay chuỗi ký tự đóng vai trò tương đương.

Ý tưởng ban đầu của Asgari và Schutze là chọn hầu hết những từ này trong bản dịch tiếng Anh của Kinh Thánh. Nhưng với một chút thay đổi, Asgari và Schutze không bắt đầu bằng tiếng Anh. Bởi vì đó là một ngôn ngữ hơi cũ sở hữu rộng rãi nếu ngoại lệ, làm việc "học" trở thành khó khăn.

Thay vào đó, họ bắt đầu bằng một bộ ngôn ngữ Creole, vốn được phát triển từ đa dạng ngôn ngữ khác nhau. Ngôn ngữ Creole trẻ hơn, ít bị tác động của lịch sử hơn. Mặt khác nó chứa các dấu hiệu phải chăng hơn về chức năng của từ ngữ (cụ thể ở đây là thì).

khoa học này cho phép các nhà nghiên cứu tạo ra các bản đồ cho thấy các ngôn ngữ dùng cấu trúc thì tương tự nhau sở hữu liên quan tới nhau như thế nào (xem sơ đồ dưới).

Sơ đồ về các thì ở các ngôn ngữ khác nhau
>>> có thể bạn quan tâm: cho thuê máy photo tại hưng yên uy tín
Sơ đồ về các thì ở các ngôn ngữ khác nhau

ấy là công việc thú vị. Asgari và Schutze đã phát triển một cách tính toán để phân tích bí quyết con người dùng thì quá khứ, ngày nay và tương lai trong hơn 1.000 ngôn ngữ.

Đột phá này với ứng dụng quan trọng. Bản đồ về thì của ngôn ngữ cho phép những nhà nghiên cứu nhanh chóng mua ra mối quan hệ giữa những ngôn ngữ và cách chúng được kết nối. Điều đấy với thể được tiêu dùng để hiểu rõ hơn về sự tiến hóa của ngôn ngữ.

Ngôn ngữ học tính toán đã sở hữu tác động sâu sắc đến sự hiểu biết của chúng ta về ngôn ngữ, sự khác biệt của các ngôn ngữ trên thế giới và cách để máy móc mang thể hiểu chúng. Lĩnh vực mới nổi này với thể giúp tự động dịch rộng rãi ngôn ngữ trực tiếp sang những ngôn ngữ khác dưới dạng văn bản hoặc giọng nhắc.

>>> cho thuê máy photo tại hải phòng giá tốt

0 nhận xét:

Đăng nhận xét

Popular Posts