主要补充来自 NLP 语料分词词表、网络百科词条名等数据。 相比出版词典等,数据量级更大,囊括更多新词、长词。 由于主要来自网络文本,数据污染问题较严重,如含特殊字符,敏感类字词较多(NSFW),同存在非规范词形、繁简混杂等情况。 如用于输入法词库、模型训练等场景,请慎重使用。
- 常用规范词表和专名词见:https://github.com/zispace/hanzi-words
- 搜狗词库见:https://github.com/zispace/dict-scel; 官网https://pinyin.sogou.com/dict/
- 网络百科词条:
- 维基百科(中文)
- 百度百科
- 腾讯词向量
- 部分输入法词库(转换成纯文本词表)
- 高校名称
- 反义词对
- 鸿雁拼音 https://forum.freemdict.com/t/topic/15303/
- ……
- 《现代汉语方言大词典》(PDF) https://github.com/ZWolken/Great-Dictionary-of-Modern-Chinese-Dialects
- 人名(人物、名人、文学家、字号、名字)词典索引 https://forum.freemdict.com/t/topic/15726
- 人名地名类辞典 10 部 https://forum.freemdict.com/t/topic/33176
- 搜狗输入法细胞词库 https://github.com/zispace/dict-scel, https://pinyin.sogou.com/dict/
- Rime 配置:雾凇拼音 https://github.com/iDvel/rime-ice
- Rime 配置:白霜拼音 https://github.com/gaboolic/rime-frost
- Rime 配置:RIME 词库增强 https://github.com/Iorest/rime-dict/
- 中文维基百科拼音词库(Fcitx 5) https://github.com/felixonmars/fcitx5-pinyin-zhwiki
- 单手笔顺输入法码表: https://gitee.com/yq-ysy/one-hand_code https://github.com/YQ-YSY/stroke-seq_MB
- 自建拼音输入法词库(Fcitx5/GBoard) https://github.com/wuhgit/CustomPinyinDictionary
- Gboard 词库语料库 https://github.com/entr0pia/corpus-of-gboard_dict_3
- 单手笔顺输入法(码表) https://gitee.com/yq-ysy/one-hand_code, https://github.com/YQ-YSY/stroke-seq_MB
- 小麥注音輸入法 https://github.com/openvanilla/McBopomofo/
- HanLP 词库 https://github.com/hankcs/HanLP
- 敏感词/审查词汇总:https://github.com/hantang/data-corpus/tree/main/censorship
- 同义词 https://github.com/jaaack-wang/Chinese-Synonyms
- 哈工大同义词词林扩展版 https://github.com/BiLiangLtd/WordSimilarity/tree/master/data, https://www.ltp-cloud.com/download
- 同义词词林(梅家驹等,1983 年) https://forum.freemdict.com/t/topic/1211
- 中文、日文、英文人名语料库:https://github.com/wainshine/Chinese-Names-Corpus
- CCNC 大型中文姓名语料库 https://github.com/jaaack-wang/ccnc
- NER 数据集 https://github.com/GuocaiL/nlp_corpus
- 公司和机构名语料库 https://github.com/wainshine/Company-Names-Corpus
- THUOCL 中文词库(IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物等类)https://github.com/thunlp/THUOCL, http://thuocl.thunlp.org
- 领域词汇知识库(涵盖 68 个领域、共计 916 万词) https://github.com/liuhuanyong/DomainWordsDict
- 刘邵博词典360万(个人整理).txt https://github.com/fkxxyz/chinese-dictionary-3.6million
- Gboard输入法的中文词库 https://github.com/Konne06/Gboard-Pinyin