使用langchain进行任务规划,构建子任务的会话场景资源,通过MCTS任务执行器,来让每个子任务通过在上下文中资源,通过自身反思探索来获取自身对问题的最优答案;这种方式依赖模型的对齐偏好,我们在每种偏好上设计了一个工程框架,来完成自我对不同答案的奖励进行采样策略
本项目分成了不同的任务模块, 角色扮演请参考src/docs/coplay_analysis/README.md
, 任务规划请参考src/docs/task_step/README.md
由于使用了多线程,并不支持jupyter中运行