泽拉克·艾哈迈德在美国已经工作了多年,为一些世界上最大的科技公司工作。但有一件事让他感到沮丧的是“计算机将非拉丁语言视为二等公民”。其中一种语言是他的母语乌尔都语,巴基斯坦的国家语言和共同语,在印度也被广泛使用。来自拉合尔的艾哈迈德与他的朋友和家人进行了许多关于试图使用现有的乌尔都语键盘或阅读乌尔都语输入文本的困难的讨论。他也目睹了许多年轻人转而使用英语或所谓的罗马乌尔都语,使用拉丁字母进行语音转写,因为没有更好的解决方案。

在哈佛大学攻读工程设计硕士学位期间,他想出了自己的解决方案。 在这个项目上工作了5年后,去年他推出了Matnsaz iOs应用程序。该应用程序为用户提供了一个更精致的乌尔都语键盘,可以根据形状对字母进行分组,自动更正,甚至建议后续单词。与主流设备上提供的标准乌尔都语键盘相比,这是一个明显的改进。

尽管根据参考出版物Ethnologue的统计,乌尔都语是世界上使用最广泛的第10种语言,但由于多重限制,乌尔都语在数字时代落后了。艾哈迈德说,巴基斯坦许多科技行业以外的人认为乌尔都语文本与计算不兼容。但他认为这是计算的缺陷,而不是语言的缺陷。目前正在努力改变这种叙述。

乌尔都语文字的挑战

“我们生活在一个文字饱和的社会,所以年轻一代对印刷复杂性的接触非常高,” 平面设计师兼网络开发人员阿比拉·卡姆兰说。“他们期待复杂的结果。” 乌尔都语中经常提供的内容通常无法满足这些期望,因为由于Nastaliq字体的复杂性以及对Naskh作为替代方案的兴趣不足,作家长期以来一直抵制数字化。 (乌尔都语使用Nastaliq字体,这是阿拉伯书写文字的一个华丽流畅的变体,特别复杂,因为每个字母的形状取决于下一个字母。) 这意味着与用户所习惯的拉丁字母脚本相比,可用的数字乌尔都语内容很少。 罗马乌尔都语通常用作网络上的替代品。 早期对乌尔都语文字的数字化依赖于更直更容易编码的Naskh阿拉伯字体。 但一些人认为当用于表达乌尔都语言的书面语时,Naskh字体不如Nastaliq。随着我们的生活越来越依赖于数字信息和交流,一些人担心真正书面语言形式的可访问数字版本的缺乏可能会导致乌尔都语对于花更多时间上网的年轻一代变得不相关。

“人们认为你不能将乌尔都语用于现代目的,这使语言难以为年轻人发展和保持相关性,”艾哈迈德说。

艾哈迈德和卡姆兰是领导这项工作以防止这种情况发生的人员之一。 Matnsaz应用程序是同名更大计划的一部分,旨在为乌尔都语在线构建消费者和开发者工具。 艾哈迈德目前的工作包括Makhzan,一个开源的乌尔都语文本语料库,以及Naqqash,一个用于阿拉伯语脚本的字符串处理库。

艾哈迈德说,他多年来一直在考虑这个想法,然后在2017年认真开始这个项目。 “在欧洲,大多数人都是用自己的母语使用计算机,但在巴基斯坦我们不这样做,”他说。 “如果你与巴基斯坦科技行业以外的人交谈,他们会认为你不能在乌尔都语中进行现代计算。” 艾哈迈德认为,如果乌尔都语像拉丁字母脚本一样受到同等重视,并拥有支持它的工具,那么它可以很容易地用于计算。 这种想法成为Matnsaz的基础,因为乌尔都语中的大部分进步仅仅是因为基本构件块不存在而受阻,他说。

乌尔都语的使用者约有2.3亿人,主要分布在巴基斯坦和印度,以及世界各地的侨民社区。 尽管已经有个人尝试将该语言数字化,但需要在不同的努力之间架起桥梁,才能产生全球影响,卡姆兰说。 她指出,乌尔都语的印刷术采用直到20世纪末才发生,因为Nastaliq字体的复杂性以及对Naskh作为替代方案的兴趣不足。 在那之前,报纸和书籍都是手写的,然后照相复印以制作所需的多份副本。

文化复杂性

巴基斯坦与Nastaliq,尤其是拉合尔Nastaliq(乌尔都语书写的风格)有着长期的文化联系,这在现有数据集上可能很难编码,卡姆兰说。 语言的文化关联也在努力使乌尔都语数字化过程中需要考虑和理解,她补充说。 “我意识到如果不对乌尔都语和Nastaliq在意识形态上如何联系在一起进行文化检讨,我们就无法做任何事情。”

巴基斯坦的社会政治斗争和推动创建穆斯林-巴基斯坦民族认同的努力导致了对某些被认为是受西方或外国影响的变化的抵制,卡姆兰说。 乌尔都语与巴基斯坦的身份息息相关,也是该国的官方语言,尽管巴基斯坦还讲其他语言。 在印巴分治之前,乌尔都语使用者将该语言作为反抗英国殖民统治的方式。 如今,它仍然是印度存在紧张的一个焦点,那里仍有数百万人使用它,但正面临威胁。 尽管乌尔都语不仅由穆斯林使用,但在该地区与信仰伊斯兰教有着密切关联。 “当涉及到拉合尔Nastaliq时,我们会联想到巴基斯坦人和穆斯林身份,正因如此,我们抵制变化,”卡姆兰说。

这种联系促使泽夏恩·纳萨尔和他的父亲纳斯鲁拉·梅尔启动了MehrType,这是一家专注于定制乌尔都语、阿拉伯语和波斯语字体的数字字体铸造厂。 梅尔是巴基斯坦一个知名的书法家,擅长拉合尔Nastaliq字体。 对他来说,可用的连字键盘——它允许阿拉伯语和Nastaliq等脚本的灵活输入,可以根据输入内容自适应改变字母样式——根本不够。 纳萨尔将基于连字的乌尔都语方法称为“jugad”,这是一个乌尔都语词,意思是权宜之计。 “使用基于连字的字体,如果您向键盘输入一个它不识别的新单词,它会将其拆分并破坏单词和字母的样式,”纳萨尔说。

这就是为什么MehrType专注于创建适合网页嵌入的轻量字符字体。 纳萨尔说,如果一个文件太大,当嵌入到一个链接中时加载速度会太慢,并可能导致网站变慢。 该团队目前正在测试一个新的设置工具,不仅会给他们的字体提供更好的在线安全性,还将包括排版功能。 在

Last modified: September 27, 2023