近期,澳鹏Appen与一家语音识别技术公司 — MediaInterface达成合作,填补了其关键的数据空白,助力其实现快速部署新市场。
语音识别技术在医疗领域的应用
几年前,北京协和医院曾开展过一项关于文档录入工作量的调研。结果显示,我国超过40%的医生每天在计算机前进行文字录入的时间约为4小时,超过一半的医生每天进行文字录入的时间占工作总时间的40%。医生们普遍对于提高病历录入效率有着强烈需求。
MediaInterface是一家颇具代表性的语音识别技术公司
语音识别技术是一种相对成熟的解决方案。在许多欧美国家,语音识别技术在医疗领域的应用已超过10年。近年来,美国临床中语音识别录入的应用比例更是已近20%。MediaInterface便是其中一家颇具代表性的语音识别技术公司。
更高效的医疗文档工作流程
以德国为中心发散,MediaInterface已经为欧洲许多国家的医疗机构提供语音技术解决方案长达20余年。如同它的名字一样,其核心产品SpeaKING便是利用语音识别AI技术支持医疗文档的高效工具。目前,该产品已帮助600+家医院、700+家医疗机构、75,000+名用户实现速度更快、质量更高的医疗文档工作流程。
凭借20多年来在欧洲多个国家的成功经验,MediaInterface希望将业务拓展至法国。然而,在业务拓展的过程中,他们遇到了法语数据资源不足的问题。
从德国到法国
尽管拥有20余年的行业经验,MediaInterface拥有的法语数据却并不多。要想拓展法国市场,MediaInterface必须建立全面的法语词汇基础。他们迫切需要具有高质量语音转录功能的专业法语“词典”。
这本“词典”中,最大的数据空白是患者健康信息中经常引用的法语姓名和地点。但这些数据却难以获取:《欧洲通用数据保护条例》规定,可供收集的健康数据必须匿名处理,因此不包括人名和地名。MediaInterface必须寻求专业的外部资源,在遵守当地数据法规的前提下,帮助他们填补这些重要的数据空白。
Appen法语数据资源及时助力MediaInterface拓展法国市场
MediaInterface产品经理Ines Wendler表示:“我们当时正在向新市场拓展。尽管我们拥有先进的技术和软件,但数据资源的缺乏让我们的产品难以在当地推行。Appen的法语数据资源及时帮助了我们。”
快速部署新市场
MediaInterface与澳鹏Appen结缘于2015年的INTERSPEECH语音技术大会。此次法国市场的拓展则促成了双方的合作。目前,MediaInterface已通过澳鹏获取到约21,000个法国人名和14,000个法国地名,从而填补了最关键的数据空白。
澳鹏数据集帮助MediaInterface开拓客户群并改善数据质量和客户体验
澳鹏Appen通过种类丰富的OTS成品数据集助力MediaInterface针对某一集中需求的产品开发,从而拓展到全新的市场,并增强未来进入更多市场的可能性。目前,MediaInterface已在法国全面覆盖了医疗机构对基本口述语音识别的需求,为法国客户提供了较高的可信度。凭借数据资源的丰富,SpeaKING中的SmartLearning功能还可以让用户在其中添加自己的文本,以个性化现有词汇,从而通过向基础AI模型中添加数据的方式来提高语音识别的效果。
就MediaInterface而言,澳鹏数据集为其配备了工具,在开拓客户群的同时,亦改善了数据质量和客户体验。不仅仅是MediaInterface,澳鹏Appen成品数据集已帮助许多企业以更高的产品准确性实现了快速的部署。
澳鹏OTS成品数据集上新
澳鹏本次更新的OTS成品数据集*,包括人体运动和婴儿啼哭声,以及市场需求量高但通常难以获得的语言(如阿拉伯语、克罗地亚语、希腊语、匈牙利语、泰语等)的脚本化语音和带有可识别文本的图像。全新数据集的加入使澳鹏Appen的OTS数据集总数达到250+个,包括11,000+小时的音频、25,000+张图像以及涵盖80+种语言及方言的870万+个单词。
其中主要包括:
他加禄语、阿拉伯语、高棉语、克罗地亚语、希腊语、匈牙利语、波兰语、西班牙语、土耳其语等多语种/方言数据库
德语、法语、俄语等自由说语音数据库
多姿态、多光线人像图片数据库
简体中文、泰文、芬兰文等印刷文本图像OCR
广告牌、外包装、标牌、杂志、菜单等,用于训练和更新计算机视觉OCR模型
适用于游戏开发、健身应用等的像素级跟踪移动视频
人体运动(中国)
婴儿啼哭声(中国)等
MediaInterface核心产品SpeaKING是利用语音识别AI技术支持医疗文档的高效工具
所有澳鹏Appen数据集都采用完全透明的方式进行开发,确保数据安全且合规,从而助力高质量、负责任的AI部署。
*成品数据集(也称OTS数据集)是一种高效、低成本的工具,可通过高质量的训练数据快速启动人工智能或机器学习项目。OTS数据集通常的交付时间在一周之内,而全新的数据集采集和标注项目根据其复杂程度,则通常需要8到12周的交付时间。与传统方法相比,OTS数据集缩短了实现价值的时间,并以较低的总成本提供了对高质量数据的使用权。