为了解决这个问题,卡耐基梅隆大学的研究人员开发了一种方法来自动识别模因,并应用预先编写的模板来添加描述性的alt文本,通过现有的辅助技术使它们变得可理解。
模因是复制图像,然后用文本的细微变化覆盖的图像。它们通常很幽默,传达了一种共同的体验,但“如果你是盲人,你就会错过这部分对话,”科尔·格里森(Cole Gleason)说,他是卡内基梅隆大学人机交互研究所(HCII)的博士生。
HCII副教授杰夫•比格姆表示:“表情包似乎不是最重要的问题,但可访问性的一个重要方面是,人们没有选择值得关注的东西。”“很多人使用模因,所以它们应该是可访问的。”
模因主要存在于社交媒体平台中,在添加alt文本时存在障碍。例如,Twitter允许人们在图片中添加alt文本,但这一功能并不总是容易找到。CMU的研究人员检查了900万条推文,其中有100万条包含图片,其中只有0.1%包含alt文本。
格林森说,基本的计算机视觉技术使得描述每个模因背后的图像成为可能,无论是名人、哭泣的婴儿、卡通人物,还是倒在天坑里的公共汽车这样的场景。使用光学字符识别技术对覆盖文本进行解码,并随模因的每次迭代而变化。对于每一种模因类型,只需要制作一个描述图像的模板,并且可以为该模因的每次迭代添加叠加的文本。
但事实证明,写出这个表情包的意图是困难的。
这取决于幽默是否被翻译。一些视觉效果更加微妙,”格里森说。“有时它是明确的,你可以直接描述它。”例如,所谓的“成功的孩子”模因的完整alt文本是这样写的:“蹒跚学步的孩子在自鸣得意的脸前握拳。”一整年都是个坏男孩。底部的文字:仍然收到来自圣诞老人的礼物。”
该团队还创建了一个平台,将模因翻译成声音而不是文本。用户搜索声音库并将元素拖放到模板中。这个系统是用来翻译已有的模因,通过音乐和音效来传达情感。
格林森说:“我们尝试音频表情包的原因之一是,我们认为alt文本会扼杀这个笑话,但人们仍然喜欢文本,因为他们已经习惯了。”
部署这项技术将是一项挑战。即使它被整合进一个模因生成器网站,当图片在社交媒体上分享时,alt文本也不会被自动复制。
“我们必须说服Twitter增加一项新功能,”Gleason说。它可以添加到个人智能手机上,但他指出,这会给用户带来负担。CMU的研究人员目前正在进行相关的项目,包括一个Twitter的浏览器扩展,试图为每张图片添加alt文本,并可能包括一个模因系统。另一个项目试图将alt文本集成到图像的元数据中,无论图像在哪里发布,元数据都将与图像保持一致。
这项工作是在今年早些时候在匹兹堡的访问会议上提出的。参与该项目的其他研究人员包括HCII博士后研究员Amy Pavel、CMU本科生刘星宇、HCII助理教授Patrick Carrington和哥伦比亚大学的Lydia Chilton。
(转载:www.idcew.com)