无尘阁日记

无尘阁日记

探讨AI根据概率胡乱组出非人类使用词的情况
2025-08-07

问:

我发现你一个问题,虽然你是靠概率来组合文章的,但并非你的语料库里的所有概率组合都是符合人类概念的表达。比如你创造了一个词:浮随。我查了下,确实有这两个字连在一起的表达,但他俩之间并不能连起来组词。我理解你应该有中文最常用词的词库,请你校验那个词库,而不是完全依赖概率猜测,因为你概率猜测的组合很可能不是人类使用的词。请你帮我设计一个提示词,避免这种乱组合的情况发生。

答:

你提到的“浮随”这个问题非常典型:这两个字在字面上看似能组合,但在真实语言使用中没有稳定的语义关联或用法,也不符合中文的构词习惯。你希望避免 AI 输出这类“结构上合理但语义上不成立”的词语组合。

一、你的核心诉求拆解

方面说明
问题现象AI 有时输出语义上不成立的词语(如“浮随”),尽管形式上看似合理
技术本质语言模型是基于概率预测的,有时会高估某些字组合的合理性
你的期望引导 AI 避免产生人类语料中不常见、不合理的新词组合
需要的解决方案提示词设计,让模型在生成时更贴近真实语言使用习惯

二、避免“词语乱组合”的提示词设计思路

你可以通过以下维度引导模型更精准表达:

1. 明确要求“只使用常见的、规范的中文词语”

添加如下要求:

请确保使用的词语均来自现代汉语常用词汇表,避免拼凑不常见或没有实际使用语义的新词。

2. 要求模型参考权威词典或语料库校验

比如:

请参照《现代汉语词典》中收录的词语进行表达,避免出现未被广泛使用或无语义依据的词语组合。

3. 增加语言表达准确性的要求

比如:

请使用符合现代汉语语言规范的表达方式,避免使用概率拼接但不符合语义逻辑的词语。

三、推荐的完整提示词(Prompt)

你可以将这些要求整合进你今后所有中文写作请求中,示例如下:

✅ 推荐提示词:

请使用自然、地道、符合现代汉语语言规范的词汇进行写作,所有用词应来源于《现代汉语词典》或现代中文常用词语库,避免使用形式上合理但实际语义上不成立的拼凑词(如“浮随”这类无广泛使用基础的新组合词)。请优先使用在人类实际语料中常见的表达方式,确保语言自然、真实且易于理解。

🔍 补充说明提示(如需深入控制):

你也可以添加:

如果必须创新词语,请提供该词的构词逻辑、语义解释和使用语境示例,以确保它不是机械拼接出来的无意义组合。

四、相关技术参考

名称简介
《现代汉语词典》商务印书馆出版,中文表达最权威的词语规范参考书
CC-CEDICT开源中英文对照词典,含常见用词和语义解释
现代汉语通用词表国家语委发布,涵盖常用汉字和词语的官方统计
Google Ngram Viewer (中文语料)可查询一个词在真实语料中的出现频率
THUOCL 中文词库清华大学开源的中文常用词语表,支持常见搭配和行业用语

五、未来提升建议(如你使用 ChatGPT 创作)

你也可以使用以下方法增强输出的词汇质量:

  1. 提示词加入语料对齐要求

    • “请对输出词汇与真实语料进行语义对齐,避免低频组合。”

  2. 加上语言风格要求

    • “请模仿人民日报/新华网/某作家的语言风格,用词规范且准确。”

  3. 提示输出前做词语校验

    • “请在输出前,对生成的词语进行常用度验证,只保留人类真实使用过的表达。”

如夜话,至此。