Nature human behaviour
基于零样本生成式AI从简短开放式文本评估人格

2026-03-12

智鼠商城

智鼠商城覆盖KO、CKO、人源化及疾病模型，助力药物研发与生命科学研究。

查看详情

研究领域分类

免疫（424）肿瘤（552）代谢及心血管（425）神经及肌肉（556）眼科（36）其他（551）

小赛推荐：

该研究展示了如何利用多种商用生成式大语言模型（LLMs）对开放式文本进行零样本评分，以高效、可靠地评估大五人格特质，其结果与自评量表具有高度一致性，并能预测日常行为和心理健康状况。

文献概述

本文《Assessing personality using zero-shot generative AI scoring of brief open-ended text》，发表于《Nature human behaviour》杂志，回顾并总结了传统心理测量量表在人格评估中的局限性，提出并验证了一种基于生成式人工智能（如ChatGPT、Claude等）对开放式文本进行零样本评分的新方法。该方法无需专门训练即可从少量自由文本中提取大五人格特质，实现了与自评量表相当甚至更优的效度，并具备良好的预测能力。研究通过两个独立样本（自发思维流与每日视频日记）验证了方法的稳定性与泛化性，强调了语言中普遍存在的人格表达，并倡导将生成式AI作为心理评估的新型工具。

背景知识

人格心理学长期依赖标准化自评量表（如NEO-FFI、IPIP-NEO）来量化大五人格特质（外向性、宜人性、尽责性、神经质、开放性），这些工具虽高效且信度高，但受限于固定题项，难以捕捉个体经验的丰富性与情境性。开放式文本数据（如日记、叙述）虽能提供更生态化、个性化的信息，但传统内容分析耗时费力，阻碍其广泛应用。近年来，自然语言处理（NLP）技术被用于人格预测，如LIWC词典分析或基于社交媒体训练的机器学习模型（如MyPersonality），但前者语义浅层，后者需大量标注数据与专业建模。生成式大语言模型（LLMs）凭借其强大的语义理解与上下文建模能力，为零样本心理构念评分提供了新路径。然而，此前研究多局限于单一模型（如ChatGPT）、特定文本类型（如Facebook帖子）或较窄构念（如抑郁症状），缺乏对大五人格的系统验证与构念效度检验。本研究填补了这一空白，系统评估了多种商用LLMs在不同文本类型下对大五人格的评分能力，并通过聚合多模型输出、检验内部一致性与nomological网络，建立了方法的可靠性与有效性，标志着AI在心理评估中迈向更通用、可及的工具。

针对阿尔茨海默病、脊髓性肌萎缩、视网膜色素变性等罕见病，可提供HUGO-GT®全基因组人源化模型，搭载了更高效的大片段载体融合技术，可以作为万能模板进行针对性的突变定制服务，是更贴近真实世界生物机制的药物临床前研究模型，我们期待与你共同开发新型全基因组人源化小鼠，加速基因治疗研究

研究方法与实验

研究采用两个独立样本：样本1（n=60）收集了参与者在实验室中30分钟的自发思维流文本（平均3097词）；样本2（n=108）收集了连续15–21天的每日视频日记文本（平均1651词）。所有参与者均完成标准大五人格自评量表（样本1：NEO-FFI；样本2：IPIP-NEO）。文本经Whisper转录后，提交给七种商用生成式大语言模型（包括ChatGPT、Claude、Gemini、Grok、Llama、Qwen等）进行零样本评分。具体方法为：将人格量表的每个题项作为提示，要求LLM“扮演”参与者，根据其文本内容对题项进行Likert评分。随后，将LLM生成的题项评分汇总为各维度得分，并与自评得分进行相关分析。研究进一步计算了多模型平均评分，并评估了其与自评的一致性、与其他外部变量（如日常行为、心理健康诊断）的关联，以及评分的内部一致性（Cronbach’s α）。同时，研究对比了该方法与传统NLP工具（LIWC）和前沿机器学习模型（MyPersonality）的预测性能。

关键结论与观点

生成式大语言模型（LLMs）能够从简短的开放式文本中零样本评分大五人格特质，其评分与自评量表的相关性达到中等至较高水平（r = 0.30–0.53），与亲友评定或生态瞬时评估的效度相当
不同LLM的评分性能存在差异，但采用多模型平均评分显著提升了与自评的一致性，体现了“群体智慧”的优势
LLM生成的人格评分不仅与自评相关，还展现出预测效度：能够显著预测日常情绪、人际行为、压力水平以及心理健康诊断（如内化障碍、人格障碍）
LLM评分的nomological网络（即与其他心理构念的关联模式）与自评高度相似，表明其捕捉到了与传统量表一致的心理结构
LLM评分的内部一致性总体良好（平均α > 0.76），表明生成式AI能够稳定地评估人格构念的多指标结构
该方法在不同文本类型（自发思维流 vs. 每日事件总结）和不同人格维度上表现稳定，显示出良好的泛化能力
相比传统词典方法（LIWC）和专门训练的机器学习模型（MyPersonality），生成式LLM在短文本人格预测上表现更优，尤其在处理上下文丰富信息方面具有优势

研究意义与展望

本研究为心理科学提供了一种高效、低成本、可扩展的人格评估新范式。它打破了传统量表的固定题项限制，允许从自然语言中提取深层心理信息，同时避免了大规模模型训练的技术门槛。该方法特别适用于大样本、纵向研究或资源有限的科研环境，能够显著降低数据收集与分析成本。此外，它为整合定性与定量研究提供了桥梁，使研究者能从个性化叙述中提取标准化指标，推动个案研究与群体研究的融合。

未来研究可探索该方法在其他心理构念（如价值观、动机、自我概念）中的应用，优化提示工程以提升评分精度，或结合主动学习策略动态调整文本采集内容。同时，需关注AI评分的可解释性、潜在偏差及伦理问题，确保其在临床与研究中的负责任使用。该方法有望推动个性化心理评估、数字表型研究及AI辅助心理干预的发展。

专业的眼科药效学分析平台可提供从眼部注射给药、眼部活体检测、眼部组织取材、病理学分析和基因与蛋白表达分子检测等全流程的眼科药效学分析服务

结语

本研究系统验证了商用生成式大语言模型在零样本设定下从开放式文本中评估大五人格的可行性与效度。通过两个独立样本的多种文本类型，研究发现LLM评分不仅与自评量表具有良好的收敛效度，其多模型平均评分更接近或超过传统跨方法效标（如亲友评定）。LLM生成的人格得分具备预测日常行为与心理健康的能力，且其nomological网络与自评高度相似，内部一致性良好。相比传统NLP与机器学习方法，LLM在短文本处理上表现更优，且无需专门训练，极大提升了可及性。该方法成功融合了开放式文本的生态效度与心理测量的量化严谨性，为心理学研究提供了强大、灵活的新工具，标志着生成式AI在心理评估领域迈向实用化与民主化的重要一步。未来应进一步探索其在多构念、多情境中的应用潜力，并关注其伦理与可解释性问题。

文献来源：

Aidan G C Wright, Whitney R Ringwald, Colin E Vize, Aman Taxali, and Chandra Sripada. Assessing personality using zero-shot generative AI scoring of brief open-ended text. Nature human behaviour.

更多热门文章推荐

Bioactive Materials
磷酸铜纳米酶通过诱导类铜死亡和抑制双组分系统对抗植入物相关感染

Intensive Care Medicine
创伤性脑损伤合并多发伤患者输血策略的影响研究