进行中拍拍贷LLM语音对话
第十一届信也科技杯全球AI算法大赛
→
比赛背景
人类对话具有天然的全双工交互特性,能够边听边说、预判停顿、自然接话、传递倾听姿态或礼貌打断。随着GPT-4o、Gemini Live及开源模型Moshi、Freeze-Omni等“原生音频”模型的出现,语音交互已进入全双工时代,端到端建模将延迟压缩至人类感知阈值内。然而,精准判断“何时开口”与“何时闭嘴”仍是关键瓶颈。
比赛目标
聚焦汉语多方言对话的轮次交互建模。基于双方对话历史音频,预测2秒窗口内是否出现相关语音事件(C / T / BC / I / NA),使AI能在极短时延下判断用户意图,避免咄咄逼人或对话冷场,习得得体的“社交直觉”。
比赛数据集
- 训练集:自切分训练数据集,选手需自行进行切分处理。
- 测试集:需对测试数据中的每条样本进行识别,判断2秒内出现的语音事件类别。
- 事件类别:C / T / BC / I / NA(具体定义未在给出文本中说明,需参考赛事官方说明)。
评价指标
- 评估方法:对比选手提交结果与标准答案,计算各类事件的 Macro-F1 值。
- 排名依据:主要按 Macro-F1 值从高到低排序。