Tin tức & Thông cáo Báo chí từ Việt Nam | News & Press Releases from Vietnam

Cuộc chiến để bảo tồn kịch bản tiếng Urdu trong thế giới kỹ thuật số

Zeerak Ahmed đã dành nhiều năm ở Mỹ, làm việc cho một số công ty công nghệ lớn nhất thế giới. Nhưng một điều khiến anh ấy thất vọng là cách “máy tính đối xử với các ngôn ngữ phi Latin như công dân hạng hai”. Một trong những ngôn ngữ đó là tiếng mẹ đẻ của anh ấy, tiếng Urdu, ngôn ngữ quốc gia và lingua franca của Pakistan, cũng được nói rộng rãi ở Ấn Độ. Ahmed, đến từ Lahore, đã có nhiều cuộc trò chuyện với bạn bè và gia đình về những khó khăn khi cố gắng sử dụng bàn phím Urdu hiện có hoặc đọc chữ Urdu. Và anh ấy đã chứng kiến nhiều người trẻ thay vào đó sử dụng tiếng Anh hoặc cái gọi là Urdu La Mã, sử dụng bảng chữ cái Latin để tạo ra một bản chuyển tự âm vị, do thiếu một giải pháp tốt hơn.

Trong khi theo học chương trình Thạc sĩ Kỹ thuật Thiết kế tại Đại học Harvard, anh ấy đã nghĩ ra giải pháp của riêng mình. Sau 5 năm làm việc cho dự án, năm ngoái anh ấy đã ra mắt ứng dụng Matnsaz cho iOs. Ứng dụng cung cấp cho người dùng một bàn phím Urdu tinh chỉnh hơn, nhóm các chữ cái theo hình dạng, tự động sửa lỗi và thậm chí đề xuất các từ tiếp theo. Đó là một cải tiến rõ rệt so với các bàn phím Urdu tiêu chuẩn có sẵn trên các thiết bị chính thống.

Mặc dù là ngôn ngữ được nói rộng rãi thứ 10 trên thế giới, theo ấn phẩm tham khảo Ethnologue, tiếng Urdu đã tụt lại phía sau trong kỷ nguyên số do nhiều hạn chế. Nhiều người Pakistan bên ngoài ngành công nghệ tin rằng văn bản tiếng Urdu không tương thích với máy tính, Ahmed nói. Nhưng anh ấy cho rằng đó là một khiếm khuyết của máy tính chứ không phải của ngôn ngữ. Một nỗ lực đang được tiến hành để thay đổi câu chuyện đó.

Những thách thức của chữ viết tiếng Urdu

“Chúng ta đang sống trong một xã hội ngập tràn văn bản, vì vậy sự tiếp xúc của các thế hệ trẻ với sự phức tạp về mặt kiểu chữ rất cao”, nhà thiết kế đồ họa và nhà phát triển web Abeera Kamran nói. “Họ mong đợi những kết quả tinh tế”. Những gì có sẵn bằng tiếng Urdu thường không đáp ứng được những kỳ vọng đó, bởi vì các nhà văn đã chống lại quá trình kỹ thuật số hóa trong một thời gian dài do sự phức tạp của hình thức viết Nastaliq và thiếu quan tâm của xã hội Pakistan đối với Naskh như một sự thay thế. Điều đó có nghĩa là hiện có rất ít nội dung kỹ thuật số có sẵn bằng tiếng Urdu có thể cạnh tranh với những gì người dùng đã quen thuộc trong các bảng chữ cái Latin. Tiếng Urdu La Mã thường được sử dụng làm thay thế trực tuyến. Những nỗ lực trước đây nhằm kỹ thuật số hóa chữ viết tiếng Urdu dựa vào phông chữ Ả Rập Naskh, thẳng hơn và do đó dễ mã hóa hơn. Nhưng một số người cho rằng phông chữ Naskh kém hơn so với Nastaliq khi được sử dụng để thể hiện ngôn ngữ Urdu bằng văn bản. Khi cuộc sống của chúng ta ngày càng phụ thuộc vào thông tin và truyền thông kỹ thuật số, một số người lo ngại rằng sự thiếu vắng một phiên bản kỹ thuật số có thể truy cập được của hình thức viết thực sự của ngôn ngữ có thể dẫn đến tiếng Urdu trở nên không liên quan đối với các thế hệ trẻ hơn, những người dành nhiều thời gian trực tuyến hơn người lớn tuổi của họ.

“Có niềm tin rằng bạn không thể sử dụng tiếng Urdu cho các mục đích hiện đại, và vì vậy nó khiến ngôn ngữ khó phát triển và duy trì sự liên quan đối với giới trẻ”, Ahmed nói.

Ahmed và Kamran là những người đang dẫn đầu nỗ lực ngăn chặn điều đó xảy ra. Ứng dụng Matnsaz là một phần của một sáng kiến lớn hơn cùng tên, nhằm xây dựng các công cụ tiêu dùng và nhà phát triển cho tiếng Urdu trực tuyến. Hiện tại công việc của Ahmed bao gồm Makhzan, một tập hợp văn bản tiếng Urdu mở, và Naqqash, một thư viện xử lý chuỗi cho chữ viết Ả Rập.

Ahmed nói rằng anh ấy đã đùa giỡn với ý tưởng trong nhiều năm trước khi bắt đầu nỗ lực nghiêm túc vào năm 2017. “Ở Châu Âu hầu hết mọi người đang sử dụng máy tính bằng ngôn ngữ bản địa của họ, nhưng ở Pakistan chúng tôi không làm điều đó”, Ahmed nói. “Nếu bạn nói chuyện với người Pakistan bên ngoài ngành công nghệ, họ tin rằng bạn không thể sử dụng máy tính hiện đại bằng tiếng Urdu”. Ahmed tin rằng tiếng Urdu có thể dễ dàng được sử dụng trong máy tính giống như vậy nếu nó được đối xử ngang hàng với các bảng chữ cái Latin và có các công cụ hỗ trợ nó. Ý tưởng đó trở thành cơ sở cho Matnsaz bởi vì rất nhiều tiến bộ trong tiếng Urdu bị cản trở chỉ đơn giản vì các khối xây dựng cơ bản không tồn tại, anh nói.

Tiếng Urdu được nói bởi khoảng 230 triệu người trên toàn cầu – chủ yếu ở Pakistan và Ấn Độ, cũng như trong các cộng đồng người Việt Nam ở nước ngoài trên khắp thế giới. Mặc dù đã có những nỗ lực cá nhân để kỹ thuật số hóa ngôn ngữ, các khoảng trống cần được kết nối giữa các nỗ lực khác nhau để có tác động toàn cầu, Kamran nói. Cô lưu ý rằng việc áp dụng in ấn kiểu chữ trong tiếng Urdu không xảy ra cho đến cuối thế kỷ 20, do sự phức tạp của phông chữ Nastaliq và thiếu quan tâm của xã hội Pakistan đối với Naskh như một sự thay thế. Trước đó, báo và sách được viết tay và sau đó sao chụp để tạo nhiều bản sao khi cần thiết.

Sự phức tạp về văn hóa

Pakistan có mối quan hệ văn hóa lâu dài với Nastaliq, đặc biệt là phong cách Lahori Nastaliq – cách tiếng Urdu được viết – có thể phức tạp để mã hóa với các bộ dữ liệu hiện có, Kamran nói.