港科大
ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻
通過文本控制生成多通道音頻在影視娛樂、AR/VR等領域擁有重要應用。
多模態(tài)版DeepSeek-R1:評測表現超GPT-4o,模態(tài)穿透反哺文本推理能力!北大港科大出品,已開源
“多模態(tài)大模型已具備跨模態(tài)穿透和融合的感知能力”
通過文本控制生成多通道音頻在影視娛樂、AR/VR等領域擁有重要應用。
“多模態(tài)大模型已具備跨模態(tài)穿透和融合的感知能力”