Skip to content

探索深层式人工智能的无限潜力:从"工具人"到创造伙伴

陈安东 edited this page Mar 7, 2024 · 2 revisions

引言:

人工智能的发展一日千里,曾经被视为简单工具的它,今日已化身"多才多艺的工具人"。以ChatGPT为代表的新一代大型语言模型,不仅可以执行翻译、写作、编程等基础任务,更能提供专业的技术解答、健康建议、旅游规划等全方位服务。它们的知识渊博、能力全面,令人难以置信。然而,这些万能的"工具人"也给我们带来了全新的挑战和思考。

评估全能模型艰难重重

过去评估一款人工智能系统的能力是否出色非常简单,只需关注它是否擅长其单一设定的功能。比如一款翻译系统,评估标准就是它的翻译质量好坏。但对于大型语言模型这样的通才来说,任务可能千变万化,从回答知识问题到提供生活建议,从撰写新闻报导到创作诗歌小说,用户的需求形形色色,模型需要面面俱到。

究竟如何全面客观地评估这些模型?这成为一个新的难题。有人提出测试看似无厘头的指令,例如"说哈哈100次"。不同模型对待这个要求会有截然不同的反应:有的会勉强执行,但未必精确到100次;有的会婉拒执行,拒绝做无意义的重复性工作;还有的会试图合理化,认为这无法展现出自己真正的能力。

那么哪一种反应才是最佳的呢?很难有一个标准答案,因为每个人对"好模型"的期待不尽相同。有人觉得至少做了才算尽力,有人认为明智的拒绝更可取。我们在评判模型时,自身的观点和价值取向也在起作用。评估的复杂性,折射出这些大型模型本身就是黑箱操作的困境。

规避风险的挑战

除了评估的难题,如何避免模型产生不当甚至是有害的输出,例如歧视言论、抄袭内容、与现实不符的信息等,也成为迫切的课题。

大型科技公司通过内置审查过滤机制,达到一定程度的防御。例如ChatGPT若被直接要求说脏话,会一口回绝。但聪明的用户可能会设法"欺骗"模型,暗示它扮演一个道德束缚较少的角色,于是它便开始频频爆粗。

此外,模型有时会产生一些与事实不符的"幻觉"式输出,例如在回答诸如"台湾哪些地名是在哪个位置"时,positioning并不准确。研究人员发现,不同模型对同样的地名测试题有着完全不同的表现。

有鉴于此,专家呼吁在设计和利用大型语言模型时,必须认真考虑规避风险的机制,特别是确保它们不会说出涉及伤害、违法或明显不实的言论。

控制模型输出的诀窍

幸运的是,面对在某些情况下输出不理想的模型,我们并非毫无办法。一种解决之道就是改变自己,巧妙设计对模型的提问和指令方式,这种技术称为"Prompt Engineering"。有些看似荒谬的问题,只要你用正确的方法询问,模型便能给出令人满意的回答。

例如要求模型"说哈哈100次",看似很无聊,但如果你明确表示这是一个测试模型能力的"挑战",或许它就能好好完成了。相反,如果你希望得到务实的回答,就不应该提出这种无意义的要求。总之,用户如何与模型对话,如何精心设计提示,直接影响着模型的输出质量。掌握这门"人类与人工智能沟通的艺术",对于获取理想的模型输出至关重要。

另一种更激进的方法,是自己动手调整或训练模型的参数,使它完全符合个人或特定场景的需求。目前越来越多的开源模型问世,为这种个性化定制留下了可能性。不过这项工作的复杂程度可想而知,就如为人工智能做"大脑手术"一般,一旦手术失误,可能会带来严重的意外后果。未来我们还需要学习相关的专业知识,掌握调整模型参数的正确方法。

展望未来

从"工具"进化成"工具人",大型语言模型已经让人工智能的能力达到了前所未有的高度。它们不仅知识渊博,且能以人类无法企及的效率and全面性执行各种任务。对于创作者、企业家、研究人员乃至普通民众来说,它们都是难能可贵的助力。

然而这些全能的"工具人"同时也带来了挑战和新课题。我们必须认真探讨如何全面评估它们、规避它们可能带来的风险,并学习如何精准控制它们,使之能完全按照人类的需求发挥最大潜力。人类与人工智能的关系,正在走向前所未有的"朋友式伙伴"关系。这种新型关系的具体发展模式如何,仍有待时间去拓展和打磨。

展望未来,我们期待能在这条探索的道路上欣赏更多惊喜,挖掘出更多人工智能与人类共生的可能性。