AI+手语|视频生成又一落地场景,这家英国AI公司帮助特殊群体打破沉默

HelloKitty 2024-06-26 16:24

扫一扫 在手机阅读、分享本文

1138

本文由 深思SenseAI 撰写/授权提供,转载请注明原出处。

文章来源于:深思SenseAI

作者:SenseAI

聋人协会(BDA)的数据表明,在英国约有 15 万名手语使用者。对很多手语用户而言,书面英语相当于有着不同结构、语法和句法的第二语言,因此在所有存在书面文本的场景中,聋人群体都需要一个手语翻译。存在 #NoBSLNoVote 这类组织,在所有政党在各种活动和宣言中提供手语解释,从而实现政治包容性和可及性,确保聋人社区不被排除在各种民主进程之外。

除了像 #NoBSLNoVote 这样的公益组织,还有像 Signapse 这类先进的 AI 公司也在积极行动。Signapse 利用先进的技术,为听觉障碍患者提供各种便捷的服务和支持。

AI 的普惠价值不仅仅要惠及普通人,对于少数群体来说,AI 也可能更会呈现出不可或缺的作用。

1.png

Sense 思考

我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。

- Signapse 从交通公告手语翻译这个封闭场景切入,在验证产品后开始增强手语翻译系统的泛用能力。

- 科技向善,全球有约 7,000 万聋哑人群体,4.3 亿听障人士,约占全球人口的 5%。科技不仅能为社会带来普世价值,更能构建起一座连接特殊群体与主流社会的坚实桥梁,为他们开启全新的可能,这背后蕴含着的是对人权与尊严的深切尊重与不懈追求。

本篇正文共 4000 字,仔细阅读约 9 分钟

AI Native 产品分析

Signapse

2.png

1. 产品:Signapse

2. 创立时间:2022

3. 创始人:莎莉·恰克,Signapse 公司的首席执行官和联合创始人,不仅在为手语用户提供服务方面经验丰富,对语言学和认知心理学也有深入的研究。她与手语世界的缘分始于学习英国手语第二级(BSL)的同时,接受社工培训并养育了三个孩子。正是莎莉对于创造有意义解决方案的激情,为 Signapse 公司的愿景——提升聋人社区对语言和文化的认同感——奠定了坚实的基础。在加盟 Signapse 之前,她还创建了 Clarion Interpreting Limited,这是英国规模最大的 BSL 口译服务公司之一。

3.png

4. 产品简介: 

Signapse 是一家手语翻译软件公司,利用生成式人工智能实现高逼真度和准确性的手语翻译,为聋人社区提供更大的无障碍性。

5. 融资情况:

2024 年 5 月 7 号,Signapse 完成了 200 万英镑的种子轮融资,加速为聋人提供无障碍服务。其中 150 万英镑来自投资者,50 万英镑来自英国创新基金。这轮融资由 Soul Mate Venture 和Deeptech Seed Fund 牵头,其他投资者包括皇家聋人协会、CEAS 投资以及 FSE 集团。这一轮新的资金将用于通过建设无约束的手语翻译来提高聋人的无障碍性。

场景:有情感的信息传递

手语,对聋哑人群而言,不仅是一种语言,更是一种文化。它是聋人社区几代人传承下来的,承载着厚重的文化意义和深刻的情感表达。当数字人用手语与聋哑人交流时,不仅仅是在传递信息,更是在传递情感,让聋哑人感受到了被理解、被尊重的温暖。

手语的直观性让信息的接收变得更加高效。对聋哑群体来说,通过观察手势、面部表情以及身体语言,他们能够更加准确、全面地理解信息,甚至能够捕捉到那些文字难以表达的细微差别。

Signapse 最初提供的手语数字人主要用于三个场景:

第一个场景是运输。运输是一个手语交流者的刚需场景,日常出行中,火车站、汽车站、飞机场都会产生大量的实时通知和实时公告,而手语人士很难获取这些通知。Signapse 从这个场景切入,瞄准最刚需并且付费意愿最高的场景。为这些公共交通中常规和紧急广播进行手语播报,供聋人群体使用,并创造更安全、更积极、更具包容性的旅行体验。

4.png

CVG 机场是 Signapse 的一个种子客户,作为一个重要的交通枢纽,Signapse 技术被集成到机场现有屏幕系统中,特别是位于人流密集区域的屏幕,以确保所有乘客都能看到欢迎标语和一般信息消息。

CVG 的 Hannah Meredith 分享了 Signapse 技术如何改善聋人乘客的旅行体验:“Signapse 能在航班屏幕上提供欢迎信息,并告知机场列车的出发和到达状态,很快还将与登机口公告整合。我们了解旅行可能带来的焦虑。通过 Signapse,我们希望为聋人乘客创造一个直观的旅行过程,以减轻他们的焦虑。”

第二个场景是网站。这部分场景的手语需求在一定程度上是反常识的,因为网站上本身有很多文字描述,即便是聋人群体也可以进行阅读和网站正常浏览。Signapse 表示,他们为网站的书面文本提供手语翻译,因为世界上99% 的网站不适合聋哑人士访问,当手语成为了这部分聋哑人士的第一语言时,他们会出现难以理解书面文字的现象。目前 Signapse 与 多家银行网站合作,帮助 80,000 名聋哑人士提供网站无障碍服务。 Signapse 的虚拟人手语翻译在网站的集成非常简单,只需一行代码即可。

5.png

第三个场景是视频翻译。与上一个场景类似,带字幕的视频无法完全满足聋哑人士的需求,因此 AI 手语翻译可能未来可以植入到除了新闻联播外的各种视频场景内,聋哑人士也可以更好的浏览各类娱乐性质的视频。

6.png

MVP:Signapse 从概念到现实的历程

创始人 Sally 在创立 Signapse 之前就在手语领域工作,全球大概有 300 多种 手语,而身在英国的 Sally 创立了英国最大的 BSL(英式手语)口译公司,并长期为聋人社区进行服务。

Signapse 的首席技术官 Ben 的母亲是一位特殊教育教师,因此 Ben 从小就接触到了基本的手语,并在萨里大学的视觉语音与信号处理中心攻读了 PhD 学位。其博士期间所做的研究就是开发一款可以自动将书面语言序列映射到手语视频输出的软件。

7.png

目前,Signapse 仍和萨里大学视觉、语音和信号处理中心 (CVSSP) 关系密切,借助研究机构的力量,Signapse 正在突破包括 BSL 的无约束翻译和 AI 生成的手语视频。产学研的结合在全球范围内,都是当前突破 AI 细分领域应用落地的重要方式。

Signapse 拥有 22 名员工,在2022年到2024年,Signapse 的商业化收入主要来自交通公告、网站和视频翻译。目前公司每天在英国各地制作 5,000 条 BSL 火车公告,并为网站和视频市场的客户提供超过 4,000 份 BSL 手动翻译。

在本次 200 万英镑融资之后,Signapse 的目标是将其技术扩展到更开放的翻译,建立不受约束的英国手语(BSL)翻译系统,用户输入任何领域的英语句子,而不仅仅是来自之前强势的交通领域。同时,Signapse 将视频翻译定义为下一个重要市场。

8.png

手语数据的积累和技术突破同样重要

BSL(英式手语翻译)存在许多不同的手势,它们可以以不同的顺序使用,这使任务变得复杂。

Signapse 的优势之一来源于其积累的数据,Signapse 拥有大量手语数据集,这部分数据集由合格翻译人员制作的手语视频来确保翻译尽可能准确。这部分数据集 需要不断的更新和翻译,以保证数据库的清晰和完善。

在此前 Signapse 专注的交通导航这类垂直场景,Signapse 需要的手语数据集是相对有限的,可以通过排列组合和文本调用快速给出手语的组合方案。而在下一步的更加泛用的 AI 手语翻译中,公司需要构建一种类似文本转语音(TTS)的技术,只不过需要将文本所代表的手语词视频通过新的方式组合在一起。

Signapse 表示,其背后使用了生成式对抗网络(GAN)及深度学习技术,基于此,Signapse 成功地将静态文字和听觉信息转化为生动、逼真的手语视频。GAN技术能够精准捕捉手语的每一个细微动作,从而保证传递给聋哑用户的每一条信息都是准确无误的。

Signapse 的 AI 手语翻译产品一定程度上基于其CTO Ben 的研究论文,他提出了 一种称为“Frame Selection Network (FS-NET)”的模型,用于改善词典手语与连续手语序列之间的时间对齐,从而产生连续且自然的手语运动。

9.png

同时,Ben 提出了一种 “SIGNGAN”,这是一个姿势条件的人类合成模型,可直接从骨架姿势生成逼真手语视频。

10.png

论文:Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production

除了强化真实感和优化用户体验外,Signapse 还利用 GAN 技术不断更新和迭代其手语翻译数据库。随着技术的发展和聋哑社区需求的变化,Signapse 能够迅速反应,实时更新翻译系统,确保聋哑用户始终能获取最新、最准确的信息。

写在最后,科技向善

科技领域,尤其是人工智能(AI)的进步,通常被视为颠覆性的力量,拥有极大的潜力改变我们与世界的互动方式。然而,在这些宏大叙事之外,AI 在一些更加细微而重要的领域中扮演着更为关键的角色,正如 Signapse 通过 GAN 为听觉障碍者提供无障碍沟通的帮助。

李飞飞在其自传《我看到的世界》中,通过个人故事和职业旅程的分享,启示我们如何将 AI 技术用于人道主义目的。在医疗保健领域里,李飞飞通过她的AI研究探索,发现了 AI 在改善患者体验、减少医疗失误中的巨大潜力。

AI 技术发展的最大胜利,是其在科学探索之外,对人类福祉的贡献。通过科技,我们不仅能够理解世界,更能够以更有意义的方式与之互动——尤其是为那些在社会中处于边缘地位的群体提供支持和帮助。

科技向善的真正含义在于它如何提升所有人的生活质量,无论是在医疗保健中减少病人的痛苦,还是通过法律确保聋人社区的语言被认可,科技都应当致力于创造一个更加包容和平等的世界。

参考材料

https://www.signapse.ai/

https://www.signapse.ai/post/signapse-ai-sign-language-translation-photo-realism-accuracy

https://www.signapse.ai/nobslnovote

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章