双层偏好建模

通过”历史行为被动信号 + 主动申报显式信号”两层叠加，构建比任何单层都更精准的用户兴趣画像。

简介

双层偏好建模是一种用户画像方法，将偏好信号分为两个独立层次采集并融合：第一层从用户的历史行为数据中被动提取（如阅读高亮、笔记、书评），第二层由用户主动填写个人信息和兴趣方向。两层信息互补，避免了单一来源的盲区。

与纯行为推荐（如协同过滤）或纯声明式画像相比，双层建模的核心优势在于覆盖时间维度的变化：历史记录反映过去的偏好，但人是会变的——你可能最近在研究新方向，之前没怎么读过这块的书，单靠历史数据推断不出来。主动填写的信息补的正是这个缺口。

双层偏好建模（Two-layer Preference Modeling）将用户偏好信号拆分为：

两层信号的优先级关系为：被动行为 > 主动申报。当申报偏好与实际标注行为出现矛盾时，以行为数据为准，并在画像中注明差异。

被动信号层的分析维度：

主动信号层的采集内容：

双层建模支持增量更新机制：

2026-05-27-woshipm-personalized-ai-reading-assistant：文章详细描述了双层偏好建模的完整实现方案。被动层通过扫描 reading_resource/ 文件夹中的所有已读书籍提取黄色标注内容，分析主题聚类、内容类型偏好、抽象层级等 9 个维度。主动层通过 user_profile.md 结构化表单采集。两层叠在一起让 AI 读书时同时参考，“比任何一层单独工作都要准”。文章特别强调：申报偏好优先级低于标注行为，当两者矛盾时以行为为准。

快速上手：建一个 reading_resource/ 文件夹放历史阅读资料 + 写一份 user_profile.md 填职业和兴趣，让 AI 工具同时读取两份信息即可
偏好维度参考：主题聚类、内容类型、抽象层级、数据敏感度、行业细节敏感度、业务节点关注、申报一致性验证、职业关联推断
缓存机制：画像生成后缓存到本地文件，避免每次重跑；新书读完导出的 Markdown 存回文件夹后自动纳入下次分析