人工智能大模型技术架构是否已收敛
在2024世界人工智能大会暨人工智能全球治理高级别会议上,青年科学家们聚焦于大模型技术架构的未来发展,以及其面临的挑战与革新。尽管生成式大模型如ChatGPT到GPT-4的出现预示着向通用人工智能迈进的步伐,但上海人工智能实验室的林达华教授指出,现有模型存在的幻觉和泛化问题成为实际应用的障碍,尤其是最强的模型在真实场景中仍有许多限制。人工智能大模型技术架构是否已收敛!
关于尺度定律作为推动大模型发展的核心策略,滑铁卢大学的张弘扬助理教授认为,短期内尺度定律确实促进了大模型能力的飞跃,但长期看,它面临着数据稀缺和算力瓶颈的问题。他提倡探索人类学习与进化的机制,以跨学科方式启发大模型的进一步发展。
上海人工智能实验室的陆超超团队正致力于增强大模型的因果推理能力,这对于确保模型安全决策至关重要。例如,使机器人能理解人与椅子间的因果关系,避免造成伤害,同时具备决策前的反思能力。然而,现有的尺度定律并未有效提升这一关键能力。
谷歌DeepMind的张晗强调,过分依赖尺度定律导致资源集中,限制了对新模型路线的探索,压缩了科研创新的空间。对于大模型与具身智能的融合,加州大学洛杉矶分校的周博磊和清华大学的许华哲分别提出利用大模型生成训练场景提升具身智能,以及通过实验探索适合机器人的模型架构,包括新旧架构的可能结合,以优化决策和与环境的互动。
许华哲团队的实践还包括利用大模型生成环境来训练机器人执行更精细操作,虽然目前成果积极,但他们期待未来大模型能更直接地影响底层动作控制,推动技术的实质性进步。会议上的讨论揭示了大模型技术架构虽已取得显著成就,但仍需跨越数据、算法及应用层面的挑战,以实现更加智能、安全且高效的未来。