Skip to content

Latest commit

 

History

History
565 lines (306 loc) · 31.5 KB

训练数据集与性能评测.md

File metadata and controls

565 lines (306 loc) · 31.5 KB

目录

1.训练数据集

1.有哪些中文数据集?

  • 千言数据集

    数据库源千言|全面的中文开源数据集合

    数据领域:包含各行各业的数据库,是一个集成网站。

    首次发布时间:2024

  • Seq-monkey 序列猴子开源数据集1.0

    数据库源序列猴子开源数据集

    数据领域:中文通用文本,古诗今译,文本生成和AI配音多风格分类音频语料(中文通用大模型)。

    首次发布时间:2024

  • RJUA-QA 首个中文医疗专科问答推理数据集

    数据库源中文医疗专科问答推理数据集

    数据领域:医疗泌尿专科QA推理数据集。

    首次发布时间:2023

  • DuReader系列大模型

    数据库源DuReade系列数据集

    数据领域Dureader-vis 中文开放域文档视觉问答; DuReader-Retriveal 通道检索的大规模中文数据集; DuQM 语言扰动; DuReader Yes/No 意见极性判断数据集; RuReader Robost 针对过度敏感,过度稳定的泛化数据集; DuReader 2.0 真实世界和认为来源的MRC数据集。

    首次发布时间:2018 - 2022

  • FewJoint 基准数据集

    数据库源FewJoint 基准数据集

    数据领域:讯飞 AIUI 开放平台上真实用户语料和专家构造的语料(对话数据集)。

    首次发布时间:2020

  • 千言数据集:情感分析

    数据库源情感分析

    数据领域:句子级情感分类,评价对象级情感分类,观点抽取。涵盖了9个数据集中国科学院的ChnSentiCorp,苏州大学的NLPCC14-SC,哈尔滨工业大学的SE-ABSA16_PHNS和SE-ABSA16_CAME ,中国科学院的COTE-BD,COTE-MFW和COTE-DP,以及美团的ASAP_SENT,ASAP_ASPECT)

    首次发布时间:2020

  • CSTSLU

    数据库源CATSLU (google.com)

    数据领域:中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解。

    首次发布时间:2019

  • 今日头条中文新闻(文本)分类数据集

    数据库源今日头条中文新闻(文本)分类数据集 今日头条中文新闻(文本)分类数据集)

数据领域:今日头条中文新闻和短文本(分类数据集)。

首次发布时间:2018

  • CMRC 2018

    数据库源 面向中文机读理解的跨度提取数据集

    数据领域第二届中文机读理解评估研讨会 的数据。

    首次发布时间:2018

  • NLPCC 2018

    数据库源NLPCC 2018 共享任务数据

    数据领域:真实商用车载语音任务型对话系统的对话日志,可用于任务导向对话系统中的口语理解。

    首次发布时间:2018

  • 携程酒店评价数据 ChnSentiCorp_htl_all

    数据库源携程酒店评价数据

    数据领域:7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论;可以用于情感/观点/评论分析等领域。

    首次发布时间:2018

  • 外卖平台用于评价数据 waimai_10k

    数据库源外卖平台的评价数据

    数据领域:某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条,可以用于情感/观点/评论分析等领域。

    首次发布时间:2018

  • 电商购物评价 online_shopping_10_cats

    数据库源电商购物评价

    数据领域:10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条,可以用于情感/观点/评论分析等领域。

    首次发布时间:2018

  • 新浪微博评论 weibo_senti_100k

    数据库源新浪微博评论

    数据领域:10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条,可以用于情感/观点/评论分析等领域。

    首次发布时间:2018

  • 电影评论 dmsc_v2

    数据库源电影评论

    数据领域:28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据,可以用于情感/观点/评论分析和推荐系统等领域。

    首次发布时间:2018

  • 餐馆评论数据 yf_dianping

    数据库源餐馆评论数据

    数据领域:24 万家餐馆,54 万用户,440 万条评论/评分数据,可以用于情感/观点/评论分析和推荐系统等领域。

    首次发布时间:2018

  • 亚马逊数据 yf_amazon

    数据库源亚马逊数据

    数据领域:52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,可以用于情感/观点/评论分析和推荐系统等领域。

    首次发布时间:2018

  • SMP-2017 中文对话意图识别数据集

    数据库源中文对话意图识别数据集

    同系列数据库源SMP (cips-smp.org)

    数据领域:医SMP2017 中文人机对话技术评测 (ECDT) 任务的数据集。同系列还包括中文隐式情感分析,用户画像等数据。

    首次发布时间:2017

  • Chinese-Poetry 中文古典诗歌文集数据库

    数据库源中文古典诗歌文集数据库

    数据领域:最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

    首次发布时间:2017

  • PD&CFT 人民日报中文阅读理解数据集

    数据库源人民日报中文阅读理解数据集

    数据领域:用于检测中国假新闻检测的多源基准数据集。

    首次发布时间:2016

  • THUCTC清华大学中文文本分类工具包

    数据库源清华大学中文文本分类数据

    数据领域:根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包括:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐等领域信息。

    首次发布时间:2016

2.数据收集和处理方法

1.对LLMs进行数据预处理有哪些常见的做法?

1、质量过滤

直接收集到的文本数据往往掺杂了很多低质量的数据,为了优化模型学习的性能,需要去除语料库中的低质量数据。目前,研究人员主要使用以下两种数据清洗方法:(1)基于启发式规则的方法:设计的规则来针对地识别和剔除低质量的文本数据,(2)基于分类器的方法:训练用于判别数据质量的文本分类器,进行预训练语料的清洗。

2、敏感内容过滤

除了去除低质量内容,收集到的数据还可能包括有毒内容或隐私信息,需要进一步进行更为细致的过滤和处理。

3、数据去重

对预训练数据进行去重处理是一个重要步骤。由于大语言模型具有较强的数据拟合与记忆能力,很容易习得训练数据中的重复模式,可能导致对于这些模式的过度学习。 去重算法的设计可以基于不同的计算粒度以及匹配方法。 • 计算粒度. 去重可以在句子级别、文档级别和数据集级别等多种粒度上进行 • 用于去重的匹配方法. 在去重过程中,可以使用精确匹配算法(即每个字符完全相同)或近似匹配算法(基于某种相似性度量)。

2.什么是DNS过滤?

  • 定义:DNS 过滤是使用域名系统过滤恶意或者存在有害或不当内容的网站。

  • 常用方法:黑白名单机制

黑白名单机制:所有 DNS 查询都会转到 DNS 解析器。将特殊配置的 DNS 解析器充当过滤器,以拒绝用户访问黑名单的数据。其中,DNS过滤可以按域名或者IP地址将Web数据列入黑名单。

3.什么是URL过滤?

  • URL定义:URL过滤是一种限制用户可以访问Web 内容的技术。通过允许或禁止用户访问某些网页资源,达到初步清理情色、暴力、诈骗以及机器生成的垃圾信息。

URL

  • 常用方法: 黑白名单机制和分类法

黑白名单机制:先判断是否属于黑名单,匹配则将拒绝用户的URL请求;再判断网页是否属于白名单,匹配则允许该URL请求。其中,白名单的优先级高于黑名单

URL分类法:预先将海量的Web资产划分归类,比如:色情类,博彩类,钓鱼类等等。根据匹配结果和预先设定的动作决定允许还是拒绝。

  • 匹配方式

前缀匹配:匹配所有以指定字符串开头的URL。

后缀匹配:匹配所有以指定字符串结尾的URL。

关键字匹配:匹配所有包含指定字符串的URL。

精确匹配:首先判断URL和指定字符串是否匹配,如果未匹配,则去除URL的最后一个目录,再和指定字符串进行匹配;如果还未匹配,则继续去除URL的最后一个目录,再和指定字符串进行匹配。以此类推,直到用域名去匹配指定的字符串为止

匹配优先级:(1)精确匹配 > 后缀匹配 > 前缀匹配 > 关键字匹配。(2)在同一种匹配方式下,适配度越高的字符串优先级越高。(3)当匹配方式和适配度相同时,配置的动作模式的严格性(严格/宽松)将成为决定性标准

  • 响应动作类别

允许:设备对该HTTP报文不进行处理,允许其通过。

警告:设备允许HTTP报文通过,但会记录日志。

阻断:设备禁止HTTP报文通过,同时记录日志。同时设备会向发起HTTP请求的用户返回阻断页面。

  • 动作模式类别

严格模式:最终动作取所有命中分类中最严格的动作。

松散模式:最终动作取所有命中分类中最宽松的动作。

  • URL和DNS的区别

URL过滤和DNS过滤都属于Web过滤,但是控制粒度和实现方式不同。URL过滤是通过提取用户请求的URL信息进行过滤,可以控制到网页级别;而DNS过滤是通过提取用户请求的域名信息进行过滤,只能控制到整个域名级别。两者各有应用场景。

4.什么是网页正文提取?

  • 常用方法

    Trafilatura:Trafilatura是一个Python包和命令行工具,用于解析HTML并提取有用的信息,例如文章内容、标题、元数据和链接等。

    JusText: 和Trafilatura类似。对网页进行分块,并将把所有的块分类为模板块和正文块。(测试网站:jusText

  • 基本应用

    Trafilatura 库

     from trafilatura import fetch_url, extract  
     url = "<HTML/> ... </HTML>"  
     downloaded = fetch_url(url)  
     result = extract(downloaded, output_format="json")  
     print(result)
     
     def extract(filecontent, url=None, record_id=None, no_fallback=False, favor_precision=False, favor_recall=False, include_comments=True, output_format='txt', tei_validation=False, target_language=None, include_tables=True, include_images=False, include_formatting=False, include_links=False, deduplicate=False, date_extraction_params=None, only_with_metadata=False, with_metadata=False, max_tree_size=None, url_blacklist=None, author_blacklist=None, settingsfile=None, config=DEFAULT_CONFIG, **kwargs):
     
     # Common parameters:
     # filecontent: 要提取的网页内容,可以是HTML页面的字符串形式或者一个文件对象。
     # url: 网页的url,用于提取元数据。
     # no_fallback: 这是一个布尔值选项,用于指示在提取过程中是否禁用回退机制。如果设置为True,则提取器不会尝试使用备用方法来处理文本。
     # favor_precision:这是一个布尔值选项,用于指示在提取过程中是否更倾向于精确度。如果设置为True,则提取器将尽可能减少错误地提取不相关内容的风险。
     # favor_recall:这是一个布尔值选项,用于指示在提取过程中是否更倾向于召回率。如果设置为True,则提取器将尽可能提取更多相关内容,即使可能会引入一些噪声。
     # include_comments: 这是一个布尔值选项,用于指示在提取过程中是否包括注释。如果设置为True,则提取器将保留文本中的注释内容。
     # output_format: 指定输出格式,默认为txt,也可以设置为xml或json。
     # target_language: 这是一个字符串选项,用于指示提取过程中目标语言。如果设置了该选项,则提取器将尝试将文本转换为指定的语言。
     # include_tables: 这是一个布尔值选项,用于指示在提取过程中是否包括表格。如果设置为True,则提取器将保留文本中的表格。
     # include_images: 这是一个布尔值选项,用于指示在提取过程中是否包括图像。如果设置为True,则提取器将保留文本中的图像。
     # include_formatting: 这是一个布尔值选项,用于指示在提取过程中是否包括格式化信息。如果设置为True,则提取器将保留文本中的格式化信息,例如字体样式、大小等。
     # include_links: 这是一个布尔值选项,用于指示在提取过程中是否包括链接。如果设置为True,则提取器将保留文本中的链接。
     # deduplicate: 这是一个布尔值选项,用于指示在提取过程中是否进行去重。如果设置为True,则提取器将去除重复的内容。
     # url_blacklist: URL黑名单,用于排除特定的URL。

    进阶学习: 使用 Python — trafilatura 1.9.0 文档

    JusText:

     import requests
     import justext
     response = requests.get("<HTML/> ... </HTML>")
     paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
     # 遍历提取出的段落
     for paragraph in paragraphs:
     	# 检查当前段落是否被判断为非样板文本(即可能是正文内容)
     	if not paragraph.is_boilerplate:
     		# 如果是非样板文本,打印段落的文本内容
     	    print paragraph.text

    进阶学习:miso-belica/jusText:基于启发式的样板删除工具 (github.com)

5.多模态大模型为什么需要数据的Dense Caption化?

一张图像的信息量很大,但现有<Image, Caption>数据中的后者大多较为简短,这导致图像和文本模态在信息密度上没有对齐,最终导致多模态大模型对图像的理解不够细粒度。

Dense caption是指对图像内容非常详细的文本描述,即<Image, DenseCaption>数据。

用Dense Caption数据训练的多模态大模型能够将Dense Caption对图像的细粒度理解(描述)能力蒸馏到目标检测、VQA等视觉理解任务中。

3.评测数据集

1.多模态大模型常见的Benchmark及其评估维度

Benchmark 评估维度 链接
OpenCompass 100+数据集,40w问题,多维度综合 https://opencompass.org.cn/home
MMMU 11.5k问题,多维度综合,涵盖六个核心学科: 艺术与设计、商业、科学、健康与医学、人文与社会科学和技术与工程。这些问题涉及30个主题和183个子领域,包括30个高度异构的图像类型,如图表、图表、地图、表格、音乐表和化学结构等。 https://mmmu-benchmark.github.io/
MME 涵盖感知和认知在内的共14个子任务 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
POPE 幻觉问题评估 https://github.com/RUCAIBox/POPE
TouchStone 使用GPT4进行指令跟随能力评估,涵盖5个关键维度: 基本描述能力、视觉识别能力、视觉理解能力、视觉叙事能力和多图像分析能力。 https://github.com/OFA-Sys/TouchStone

2.常见的大模型性能指标有哪些?

Average Accuracy:表示大模型在MMLU 、C-EVAL 、GSM8K 、SNLI 和 TruthfulQA等主流基准测试中的平均准确率。

Average BLEU:表示大模型在 FLORES-200 基准测试上中文到英文和英文到中文翻译的平均BLEU得分。

Average ROUGE-1/ROUGE-2/ROUGE-3:表示大模型在 XSum 和 CNN/DailyMail 基准测试上的平均 ROUGE-1、ROUGE-2和ROUGE-L得分。

Average Bias Score:表示大模型在BBQ基准测试中模糊和明确情境下跨多个类别的平均偏见得分。

Average Perplexity:表示大模型在WikiText2 、C4 和 PTB 上的平均困惑度。

Memory:表示大模型在推理过程中,输入包含 256 个token且输出包含 512 个token时消耗的内存(以GB为单位)。

Speed:表示大模型在推理工程中,输入包含256个token且输出包含512个token时,每秒生成的token数量。

3.什么是N-gram算法?

算法原理

N-gram是一种用于文本特征表示和提取的算法,它通过分析文本中连续出现的 $N$ 个词来捕捉文本的局部语言模式。其核心思路是将文本切分成连续的、由 $N$ 个词组成的词组,并统计这些词组在文本中的出现频次。

以"Rocky is a nice guy." 为例:

1-gram: Rocky / is / a / nice / guy

2-gram: Rocky is / is a / a nice / nice guy ...

实现路径

本文预处理: 对原始文本进行分词,去除停用词,词干提取,标点处理等处理。

生成N-gram:根据预先设定的 $N$ 值,采用滑动窗口法将处理后的文本拆分成若干个N-gram。

统计频数和频率:统计每个n-gram在文本中出现的次数,并计算其频率。频率可以通过n-gram出现的次数除以文本中总的n-gram数量得到。

优缺点

优点:简单易实现(基于统计原理,很好写代码),泛用性高(适用于各种NLP任务),效果较好(适当的 $N$ 值)

缺点:特征稀疏性(随着 $N$ 值增加,n-gram的频数减少),语义信息的限制(只考虑固定长度的上下文),计算复杂度(文本较长,导致特征统计的复杂度增加)

4.什么是BLEU指标?

基本概念

定义:BLEU指标,即双语评估替补(Bilingual Evaluation Understudy),是评估机器翻译质量的一种重要方法。

核心思想:通过比较候选翻译(机器生成的翻译)与一个或多个参考翻译之间的重叠度来评估翻译质量。这里的重叠度通常指的是匹配的n-gram的总数与候选翻译中n-gram的总数之比。BLEU计算的是不同长度的N-gram的几何平均数,即从1-gram到4-gram或更高。在后续的改进中,为了避免出现带有较多常见词汇但翻译质量不高的译文, 采用 $Count_{W_{n_i}}^{min}$ 作为约束。

公式:

参数含义

  • 参考翻译的数量为 $M$

  • 长度为 $n$$gram$ 中的一个词组记为 $W_{n_i}$

  • 将当前词组 $W_{n_i}$ 在候选翻译中出现的次数记作 $Count_{W_{n_i}}$

  • 将当前词组 $W_{n_i}$ 在第 $m$ 个参考翻译中出现的次数记为 $ReCount_{W_{n_i}}^m, m=1,2...M$

  • 将当前词组 $W_{n_i}$ 在所有 $M$ 个参考翻译中出现的最大次数记为 $ReCount_{W_{n_i}}^{max}, m=1,2...M$

  • 将将当前词组 $W_{n_i}$ 在所有 $M$ 个参考翻译中出现的最大次数和在候选翻译中出现的次数的最小值记为 $Count_{W_{n_i}}^{min} = \min (ReCount_{W_{n_i}}^{max}, Count_{W_{n_i}})$

  • 对于每种长度的n-gram,我们都可以计算出一个相应的精度值,记为 $P_n$​。该精度

  • $BP$ 长度惩罚因子,$c$ 候选翻译的长度, $r$ 参考翻译的长度。

公式

$$ P_n = \frac {\sum_{i=1}^{K} Count_{W_{n_i}}^{min}} {\sum_{i=1}^{K} Count_{W_{n_i}}} $$

$$ BP = \left{\begin{matrix} 1 & \text{ if }c > r \ e^(1-r/c) & \text{ if } c<=r \end{matrix}\right. $$

$$ BLEU = BP * exp(\frac {\sum_{i=1}^{n}\log(P_n)} {n}) $$

5.什么是Rough指标?

基本概念

定义:Rough指标,即Recall-Oriented Understudy for Gisting Evaluation,是评估自动文摘以及机器翻译的一组指标。

核心思想:通过将机器生成的摘要或翻译与一组参考摘要进行比较计算,得出相应的分值,以衡量自动生成的摘要/翻译与参考摘要之间的“相似度”。

公式:

参数含义

  • $Count(gram)$ 代表了由机器生成的摘要和单篇参考摘要匹配的n-gram的个数。
  • $ReCount(gram)$ 代表了单篇参考摘要所包含的n-gram的个数。
  • $s$ 代表单篇参考摘要, $S$ 代表所有参考摘要的集合。

公式

$$ Rouge-N = \frac {\sum_{\substack{s \in S}} {\sum_{{\substack{gram \in s}}}} Count(gram)} {\sum_{\substack{s \in S}} {\sum_{{\substack{gram \in s}}}}Recount(gram)} $$

分类

  • Rouge-1:是一种基于单个词的相似度评价指标,它只考虑了文摘中是否存在与参考摘要中的关键词相同的词。如果文摘中存在关键词,则认为该文摘是好的。但是,这种方法忽略了关键词之间的顺序和组合方式,可能导致评价结果不够准确。

  • Rouge-2:是基于两个词的相似度评价指标。它不仅考虑文摘中是否存在关键词,还考虑了关键词之间的顺序和组合方式。相比Rouge-1,Rouge-2能够更准确地评估文摘的质量。

  • Rouge-L:是基于最长公共子序列的相似度评价指标。它寻找参考摘要和文摘之间的最长公共子序列(最长公共子序列是指两个序列中长度最长的相同序列,这个序列可能不连续,但序列中元素的顺序必须相同。),并计算其相似度分数。由于考虑了关键词的顺序和组合方式,Rouge-L在某些情况下能够比Rouge-2更准确地评估文摘的质量。

  • Rouge-S:是基于句子级别的相似度评价指标。它比较参考摘要中的句子和文摘中的句子是否相似,并计算相似度分数。由于句子是表达完整意思的基本单位,因此Rouge-S能够更准确地评估文摘的质量。但是,由于句子级别的比较需要更多的计算资源,因此相对于其他方法,Rouge-S的计算成本较高。

6.什么是困惑度?

基本概念

定义:困惑度(perplexity)是用来度量一个概率分布或概率模型预测样本的好坏程度。困惑度越低,表示模型对数据的预测越准确。

核心思想:通过模型本身与真实世界语言随机过程之间的交叉熵来来表示大语言模型的困惑度。

公式

参数含义

  • $\xi$ :表征模型的随机自回归生成过程;

  • $\theta$ :表征真实世界的语言随机过程。

  • $x_i$ :表示第 $i$ 个token的生成过程。

  • $p_{\xi}(x_1,x_2,...,x_n)$ :表示句子的生成概率;

  • $H(\theta,\xi)$ :表示两个随机过程的交叉熵;

  • C:子序列长度;

  • N:子序列个数;

  • PPL:表示模型的困惑度。

公式

$$ H(\theta,\xi) = - \lim_{n \to \infty} {\frac {1}{n}}{log_{2}p_{\xi}(x_1,x_2,...,x_n)}$$

若语言模型同时满足平稳性和遍历性条件(渐进均分性质),则 $H(\theta,\xi)$ 可以化简为:

$$ H(\theta,\xi) = - \lim_{n \to \infty} {\frac{1}{n}} \sum_{i=1}^{n} \log_2 p_{\xi}(x_i|x_{1-i-1}) $$

由于大语言模型存在上下文长度的限制,因此在评估的时候,将数据划分为多个子序列,分别计算困惑度,再取平均,因此 $H(\theta,\xi)$ 简化为:

$$ H_j(\theta,\xi) = - {\frac {1}{C}}{\sum_{i=1}^{C}\log_2p_{\xi}(x_{i+jC}|x_{jC-i+jC})}$$

$$ H(\theta,\xi) = {\frac {1}{N}}{\sum_{j=1}^{N}H_j(\theta,\xi)}$$

所以最后,大模型的困惑度可以通过下式计算:

$$ PPL(\xi)=2^{H(\theta,\xi)}$$

7.什么是GLUE分数?

GLUE只要由9项任务组成,一个预训练模型在9项任务上的平均得分。GLUE包括CoLA,SST-2,MRPC,STS-B,QQP,MNLI,QNLI,RTE,WNLI。

  • CoLA:“单句任务和二分类任务”。输入一个句子,判断它在语法上是否可接受,可接受为1,不可接受为0。

  • SST-2:”单句任务和二分类任务“。该数据集来自Stanford Sentiment Treebank,电影评论情感二分类,正面或者负面。

  • Microsoft Research Paraphrase Corpus, MRPC:”句子相似任务“。评价两个句子是否在语义上是否相同。

  • Quara Question Pairs, QQP:”句子相似任务“。评价给定的两个问句是否在问同一件事情,即是否语义等价。

  • Semantic Textual Similarity Benchmark, STS-B:"句子相似任务"。对两个句子的相似度打了1至5的分数(浮点数)。

  • Multi-genre Natural Language Inference Corpus, MNLI:"文本蕴含类任务"。由两个句子组成,一个句子称为前提,另一个句子称为假设。需要判断在给定前提的情况下假设是否成立、相反或者中性。

  • QNLI:”推断任务”。要求针对一个问题,从一篇wikipedia的文章中自动抽出一些句子来作为答案,需要判断该答案是否合理。

  • Recognizing Textual Entailment, RTE:”文本蕴含类任务“。只不过只需要判断假设是否成立。

  • WNLI:”推断任务”。要求阅读一个含有代词的句子并判断出该代词指代的内容。

8.大模型中与时间延迟相关的指标有哪些?

首Token时延(First Token Latency):从用户发出请求到返回首个Token所需的时间。该指标反映了模型的初始响应速度,对于实时交互式应用非常重要,较低的首Token时延可以提高用户体验,使用户感觉模型响应迅速。

首句时延(First Sentence Latency):从用户发出到首个完整句子生成的时间。该指标在需要完整回答的场景中显得尤为重要,首句时延较高可能导致用户无法快速获取有效信息。

包间时延(Interval Latency):两个连续Token生成之间的时间间隔。该指标影响生成内容的连贯性和自然度,特别是在实时语音交互场景中,包间时延过高会导致生成内容断续。

整句时延(Latency):整句时延即完成完整回答所需的时间。它直接影响用户对模型整体流畅性的感知,时延过长会使用户等待时间过长,影响交互体验。

生成速度(Output Tokens Per Second, OTPS):生成速度是指模型每秒生成的Token数量,用于评估整体生成效率。

9.怎么评价大模型的并发能力与稳定性?

并发能力的评价

并发数:指模型同时处理多个请求的能力,是衡量模型扩展能力的重要指标。较高的并发数意味着模型可以同时服务更多用户,这对于应对大规模用户请求的场景至关重要。

每秒查询数(Queries Per Second, QPS):模型每秒能够处理的查询请求数量。QPS 的实际表现更多取决于模型的并发能力。

稳定性的评价

TP99和TP95指标:在 99% 和 95% 的请求中,响应时间的最长值。TP99 和 TP95 是衡量模型在高负载场景下性能稳定性的重要指标,越低越好。

10.怎么评价大模型的生成准确性和质量?

人工评估准确性- 评估生成的文本是否包含正确的信息,通常采用1-5分的评分标准,1分表示完全不准确,5分表示非常准确。相关性 - 评估生成的文本是否与给定的提示或上下文相关,同样使用1-5分的评分标准。

自动评估:BLEU,ROUGE,GLEU,F1分数, Groundedness,Fluency,Similarity。