Nature human behaviour
基于零样本生成式AI从简短开放式文本评估人格
小赛推荐:
该研究展示了如何利用多种商用生成式大语言模型(LLMs)对开放式文本进行零样本评分,以高效、可靠地评估大五人格特质,其结果与自评量表具有高度一致性,并能预测日常行为和心理健康状况。
文献概述
本文《Assessing personality using zero-shot generative AI scoring of brief open-ended text》,发表于《Nature human behaviour》杂志,回顾并总结了传统心理测量量表在人格评估中的局限性,提出并验证了一种基于生成式人工智能(如ChatGPT、Claude等)对开放式文本进行零样本评分的新方法。该方法无需专门训练即可从少量自由文本中提取大五人格特质,实现了与自评量表相当甚至更优的效度,并具备良好的预测能力。研究通过两个独立样本(自发思维流与每日视频日记)验证了方法的稳定性与泛化性,强调了语言中普遍存在的人格表达,并倡导将生成式AI作为心理评估的新型工具。背景知识
人格心理学长期依赖标准化自评量表(如NEO-FFI、IPIP-NEO)来量化大五人格特质(外向性、宜人性、尽责性、神经质、开放性),这些工具虽高效且信度高,但受限于固定题项,难以捕捉个体经验的丰富性与情境性。开放式文本数据(如日记、叙述)虽能提供更生态化、个性化的信息,但传统内容分析耗时费力,阻碍其广泛应用。近年来,自然语言处理(NLP)技术被用于人格预测,如LIWC词典分析或基于社交媒体训练的机器学习模型(如MyPersonality),但前者语义浅层,后者需大量标注数据与专业建模。生成式大语言模型(LLMs)凭借其强大的语义理解与上下文建模能力,为零样本心理构念评分提供了新路径。然而,此前研究多局限于单一模型(如ChatGPT)、特定文本类型(如Facebook帖子)或较窄构念(如抑郁症状),缺乏对大五人格的系统验证与构念效度检验。本研究填补了这一空白,系统评估了多种商用LLMs在不同文本类型下对大五人格的评分能力,并通过聚合多模型输出、检验内部一致性与nomological网络,建立了方法的可靠性与有效性,标志着AI在心理评估中迈向更通用、可及的工具。
研究方法与实验
研究采用两个独立样本:样本1(n=60)收集了参与者在实验室中30分钟的自发思维流文本(平均3097词);样本2(n=108)收集了连续15–21天的每日视频日记文本(平均1651词)。所有参与者均完成标准大五人格自评量表(样本1:NEO-FFI;样本2:IPIP-NEO)。文本经Whisper转录后,提交给七种商用生成式大语言模型(包括ChatGPT、Claude、Gemini、Grok、Llama、Qwen等)进行零样本评分。具体方法为:将人格量表的每个题项作为提示,要求LLM“扮演”参与者,根据其文本内容对题项进行Likert评分。随后,将LLM生成的题项评分汇总为各维度得分,并与自评得分进行相关分析。研究进一步计算了多模型平均评分,并评估了其与自评的一致性、与其他外部变量(如日常行为、心理健康诊断)的关联,以及评分的内部一致性(Cronbach’s α)。同时,研究对比了该方法与传统NLP工具(LIWC)和前沿机器学习模型(MyPersonality)的预测性能。关键结论与观点
研究意义与展望
本研究为心理科学提供了一种高效、低成本、可扩展的人格评估新范式。它打破了传统量表的固定题项限制,允许从自然语言中提取深层心理信息,同时避免了大规模模型训练的技术门槛。该方法特别适用于大样本、纵向研究或资源有限的科研环境,能够显著降低数据收集与分析成本。此外,它为整合定性与定量研究提供了桥梁,使研究者能从个性化叙述中提取标准化指标,推动个案研究与群体研究的融合。
未来研究可探索该方法在其他心理构念(如价值观、动机、自我概念)中的应用,优化提示工程以提升评分精度,或结合主动学习策略动态调整文本采集内容。同时,需关注AI评分的可解释性、潜在偏差及伦理问题,确保其在临床与研究中的负责任使用。该方法有望推动个性化心理评估、数字表型研究及AI辅助心理干预的发展。
结语
本研究系统验证了商用生成式大语言模型在零样本设定下从开放式文本中评估大五人格的可行性与效度。通过两个独立样本的多种文本类型,研究发现LLM评分不仅与自评量表具有良好的收敛效度,其多模型平均评分更接近或超过传统跨方法效标(如亲友评定)。LLM生成的人格得分具备预测日常行为与心理健康的能力,且其nomological网络与自评高度相似,内部一致性良好。相比传统NLP与机器学习方法,LLM在短文本处理上表现更优,且无需专门训练,极大提升了可及性。该方法成功融合了开放式文本的生态效度与心理测量的量化严谨性,为心理学研究提供了强大、灵活的新工具,标志着生成式AI在心理评估领域迈向实用化与民主化的重要一步。未来应进一步探索其在多构念、多情境中的应用潜力,并关注其伦理与可解释性问题。




