| 污污漫画| 科学研究| 学术前沿 |
| 黎坚教授课题组在Computers in Human Behavior Reports发文开发并验证AI辅助自动化命题新方法 |
| 发布时间:2026-03-31 作者: 浏览量: 【关闭】 |
|
在心理测量学与人工智能(Artificial Intelligence, AI)深度融合的时代背景下,如何高效率、高质量地编制复杂心理测验已成为行业发展的核心诉求。污污漫画 黎坚教授课题组在心理学与人机交互领域高质量期刊Computers in Human Behavior Reports(5-year IF = 6.4)上发表了题为“Automatic item generation for personality situational judgment tests with large language models”的研究成果。该研究系统开发并验证了一套结构化、通用的LLMs自动化命题框架,标志着心理测验行业向“自动化时刻”迈出了重要一步。 构建自动化命题框架,破解SJT编制难题 情境判断测验因其高度模拟现实、有效对抗作假行为等优点,在人才选拔与心理评估中极具价值。然而,SJT的开发长期以来被视为心理测量学中的“重体力活”,面临着耗时耗力、专家依赖度高、成本昂贵以及题库易曝光而失效等现实痛点。研究团队通过三项递进实验,深入探索了利用LLMs生成高质量SJT题目的最优技术路径。
该研究首先聚焦于技术参数与提示词策略的优化,发现通过设置合理的温度参数(如 Temperature = 1.0)并采用经过多轮迭代优化的结构化提示词,GPT-4能在创造力与准确性之间达到最佳平衡,并生成语义丰富、逻辑严密的测试情境。这一优化过程不仅保证了题目情境的多样性,更有效规避了以往研究在生成复杂情境题目时容易出现的评分逻辑错误,显著提升了生成题目的内容效度。
随后,该自动化命题框架被成功迁移至ChatGPT-5,并扩展至大五人格的五个维度,证实了该框架在不同模型版本与多种人格特质下均能稳定产出高质量题目,展现出良好的可推广性与可重复性。 最后,研究团队通过对443名真实被试的实证数据检验,全面评估了LLMs生成题目的心理测量学质量。结果显示,利用该框架生成的题目在各项信效度指标上均表现良好,不仅达到了传统人工编制量表的标准,甚至在部分结构效度指标上优于传统的自陈量表。 探索人机协同新范式,实现质量与效率双重突破 实验结果显示,在最优条件下生成的题目,其内容效度指数(CVI)达到0.76,甚至超过了传统专家命题。尤为突出的是,LLMs展现出了卓越的跨文化敏感性。相比于直接翻译西方量表时常出现的文化冲突,AI生成的中文情境能够更精准地捕捉中国文化、社会与心理的独特之处,为国内人才选拔与心理健康筛查提供了更具本土适用性的高质量工具。 在效率与成本方面,传统专家团队耗时数周乃至数月才能完成的复杂命题任务,在AI辅助下仅需几分钟即可完成,成本仅需几元钱。这种极高的时效性与经济性,使得大规模、高频率的题库更新成为可能,为资源有限的应用场景提供了普惠性的解决方案。 同时,该研究也清楚地指出,AI的崛起并不意味着心理测验专家的退出,而是预示着一种“人机协作”新范式的诞生。实证数据表明,现阶段仍有约25%至30%的AI生成题目需要经过专家地调整与论证方可投入实际应用。在这种新范式下,AI承担了高强度的初始题库生成工作,而专家则将精力解放出来,专注于题目的审核、筛选与心理测量学检验,确保测评工具的严谨性与科学性。 该研究有力证明了LLMs在心理测验开发中的巨大潜力,为心理测量学方法论的智能化变革提供了典型范式。未来,我们期待AI不仅仅是辅助工具,更能成为深入理解人类行为逻辑的命题专家,为个性化测验和大规模测评提供无限可能。 污污漫画 博士生李昌锦与硕士毕业生张继圆为本研究的共同第一作者,通讯作者为污污漫画 黎坚教授,华中师范大学心理学院唐云副教授也作出了重要贡献。
论文信息: Li, C.-J., Zhang, J., Tang, Y., & Li, J. (2026). Automatic item generation for personality situational judgment tests with large language models. Computers in Human Behavior Reports, 21, 100964. //doi.org/10.1016/j.chbr.2026.100964
如需获取优化版自动化题目生成提示词(Prompt v2),请关注“心理测验与评估”公众号,并于主页发送“提示词”或“prompt”。 |
|
|