进行中拍拍贷LLM语音对话

第十一届信也科技杯全球AI算法大赛

2026年4月1日→2026年6月16日

比赛背景

人类对话具有天然的全双工交互特性，能够边听边说、预判停顿、自然接话、传递倾听姿态或礼貌打断。随着GPT-4o、Gemini Live及开源模型Moshi、Freeze-Omni等“原生音频”模型的出现，语音交互已进入全双工时代，端到端建模将延迟压缩至人类感知阈值内。然而，精准判断“何时开口”与“何时闭嘴”仍是关键瓶颈。

比赛目标

聚焦汉语多方言对话的轮次交互建模。基于双方对话历史音频，预测2秒窗口内是否出现相关语音事件（C / T / BC / I / NA），使AI能在极短时延下判断用户意图，避免咄咄逼人或对话冷场，习得得体的“社交直觉”。

比赛数据集

训练集：自切分训练数据集，选手需自行进行切分处理。
测试集：需对测试数据中的每条样本进行识别，判断2秒内出现的语音事件类别。
事件类别：C / T / BC / I / NA（具体定义未在给出文本中说明，需参考赛事官方说明）。

评价指标

评估方法：对比选手提交结果与标准答案，计算各类事件的 Macro-F1 值。
排名依据：主要按 Macro-F1 值从高到低排序。