奇富科技论文入选顶级国际会议ICASSP2023音频技术研究成果获国际认

来源：中国网时间：2023-03-15 10:15 编辑：兰心雪阅读量：16353

近日，第48届IEEE声学、语音与信号处理国际会议公布了论文入选名单，奇富科技论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被大会接收。

ICASSP由IEEE主办，是全世界最大的、也是最全面的信号处理及其应用方面的顶级学术会议，具有权威、广泛的学界及工业界影响力，备受AI领域研究学者关注。此次入选，显示奇富科技在音频领域的技术实力达到国际领先水平。

凭借在音频技术领域的积累创新，奇富科技也不断将前沿领域研究成果应用于实践。为用户提供优质的服务一直是奇富科技运营的重中之重。相比于以往只通过文本识别用户的情绪，从用户音频中解读的情感信息更加直接和丰富，更有利于指导户交互策略、提升客户体验。而偏主观的情绪判断导致标注任务格外困难，数据标注数量较少、标注结果存在的不一致性都是情绪识别所面临的挑战。考虑到预训练模型的成功和语言表达细粒度的特征，奇富科技引入了一种新的multi-granularity的模型，可以有效融合多模态细粒度的表征和预训练的全局表征，来解决这极具价值而又充满挑战的任务。

该项技术已帮助奇富科技大幅度提升用户服务体验，有效应用在质检服务中，降低客户投诉率4%。而对于基于语音通话，通过捕捉的情绪信号，应用在用户经营、坐席指导中的探索和尝试，也一直在进行，用户的情绪表征可以帮助奇富科技更全面的理解用户，服务用户。

“随着ChatGPT在公司内的实验和落地，我们已经极大提升了对于用户在文本上的理解能力，更好的识别和挖掘音频中的信息表征已经从幕后走向台前，成为进一步提升用户理解能力的关键手段。公司在音频技术上，一直坚持投入、坚持自研，这也是我们不断进步的基石，未来我们会有更多的技术成果分享给业界。”奇富科技首席算法科学家费浩峻表示。

据介绍，奇富科技在评价情绪过程中引入了三个主要创新点:

第一，对于多模态细粒度的表征，提出multilevel transformer模型，探索不同的方式来结合音素表征和单词表征。特别地，该方法并不需要借助外部信息来进行语音和文字的对齐，而是借鉴transformer TTS的框架，把文本和语音信息，有效地结合在一起。