文本表示概述

基本信息

👤作者：无双💡主题：文本表示概述

创建时间：2025年10月14日13:20:44修改时间：2025年10月14日23:11:14

摘要：文本表示是将文本转化为数值向量，供机器学习模型捕捉语义的技术。

AI 为啥能懂 “吃火锅” 和 “食火锅”？揭秘文本表示：把文字变成机器能读的 “数字密码”

导语：AI “读文字” 的秘密 —— 先把文字 “转成数字”

你有没有好奇过：

为什么 AI 能知道 “今天吃火锅” 和 “今日食火锅” 是一个意思？为什么给 AI 输入 “猫” 和 “狗”，它能判断 “都是动物”，却不会把 “猫” 和 “汽车” 归为一类？为什么 AI 看了 “我在银行取钱” 和 “河边有银行”，能分清 “银行” 一个是 “金融机构”，一个是 “河边台阶”？

答案藏在 AI 处理文字的 “关键一步” 里 ——文本表示。简单说，AI 不认汉字、英文这些 “人类文字”，只认 0 和 1 组成的数字。而文本表示，就是 “把人类文字翻译成机器能懂的数字语言” 的过程。今天用大白话 + 生活例子，把这件事讲透，小白也能明白：AI 是怎么靠 “数字密码” 读懂文字的。

一、先搞懂：文本表示就是 “给文字发数字身份证”

一句话说清核心：文本表示是将文本（单词、句子、文章）转化为数值向量（一串数字）的技术。就像人类靠身份证号区分身份，AI 靠 “数字向量” 区分不同文字的含义。

咱们用 “认人” 类比，一步看懂逻辑：

你想让 AI 区分 “小明”“小红”“小刚”，直接给 “小明” 这两个字，AI 看不懂；你给他们发 “数字身份证”：小明 = 1，小红 = 2，小刚 = 3——AI 看到 1 就知道是小明，看到 2 就知道是小红；但这样的 “身份证” 太简单：AI 不知道 “小明和小红是同学”（相关性），也不知道 “小明 10 岁、小红 9 岁”（属性）。

文本表示的进阶逻辑，就是给文字发 “更智能的数字身份证”：

不仅能区分 “苹果” 和 “香蕉”（基础身份），还能体现 “都是水果”（相关性）；不仅能区分 “银行” 这个词，还能根据上下文，给 “金融机构的银行” 和 “河边的银行” 发不同的 “数字身份证”（语境差异）。

二、3 种核心文本表示方法：从 “简单身份证” 到 “智能密码”

文本表示的发展，就是 “数字身份证” 不断升级的过程。从简单到复杂，有 3 种新手必须了解的方法，每种都对应不同的 “翻译逻辑”。

1. 方法 1：One-Hot 编码 —— 给每个词发 “唯一身份证号”

原理：给词汇表中的每个词，分配一个 “只有 1 个 1、其余都是 0” 的数字向量（比如词汇表有 “苹果、香蕉、汽车”3 个词）。

苹果 → [1, 0, 0]（第 1 位是 1，代表苹果）；香蕉 → [0, 1, 0]（第 2 位是 1，代表香蕉）；汽车 → [0, 0, 1]（第 3 位是 1，代表汽车）。

生活类比：就像给每个学生发 “唯一学号”，1 号是小明，2 号是小红 —— 学号唯一，但看不出 “小明和小红是同桌”（相关性）。

优缺点：

优点：简单好懂，新手 5 分钟就能学会，适合处理少量简单文本（比如给 10 个水果词编码）；缺点：完全没考虑 “词的相关性”——“苹果” 和 “香蕉” 的向量距离，和 “苹果” 与 “汽车” 的距离一样，AI 看不出 “苹果和香蕉都是水果”；而且词汇表变大时（比如有 1 万个词），向量会变得超长（1 万个数字），AI 处理起来很慢。

适用场景：简单文本分类（比如给 “水果 / 汽车 / 动物”3 类词贴标签），不追求复杂语义理解。

2. 方法 2：词袋模型（Bag of Words）—— 给词发 “出现次数卡”

原理：不关心词的顺序，只统计 “每个词在句子里出现的次数”，用次数组成数字向量。

比如句子 “苹果苹果香蕉，我爱吃苹果”，词汇表是 “苹果、香蕉、我、爱、吃”：

苹果出现 3 次，香蕉 1 次，我 1 次，爱 1 次，吃 1 次 → 向量是 [3, 1, 1, 1, 1]。

生活类比：就像统计 “班级里每个同学举手的次数”—— 小明举 3 次，小红举 1 次，能看出 “谁更活跃”，但看不出 “小明和小红是一起举手的”（语序）。

优缺点：

优点：比 One-Hot 更实用，能体现 “词的重要性”（出现次数多的词，可能更关键，比如 “苹果” 在水果相关句子里出现多）；缺点：丢了 “语序信息”——“我吃苹果” 和 “苹果吃我” 的向量完全一样（都是 [1,0,1,1,0]），AI 分不清这两句的意思差异；也没解决 “词的相关性” 问题。

适用场景：简单的文本摘要、垃圾邮件识别（比如 “免费、中奖” 出现次数多，可能是垃圾邮件）。

3. 方法 3：Word2Vec/BERT—— 给词发 “智能社交卡”（懂关联、懂语境）

前面两种方法，AI 都 “不懂词的关系和语境”。而 Word2Vec 和 BERT，就是给词发 “能体现社交关系、能适应语境” 的智能数字卡。

（1）Word2Vec：给词 “找朋友”，体现相关性

原理：通过海量文本学习，让 “意思相近的词” 拥有 “相近的数字向量”。

比如在词汇表中：

苹果 → [0.8, 0.2, 0.1]；香蕉 → [0.7, 0.3, 0.1]；汽车 → [0.1, 0.8, 0.9]。

“苹果” 和 “香蕉” 的向量很像（数字差异小），AI 就知道 “它们是朋友，都是水果”；“苹果” 和 “汽车” 的向量差异大，AI 就知道 “它们不是一类”。

生活类比：就像给每个人发 “社交标签卡”—— 小明的标签是 “喜欢吃水果、爱跑步”，小红的标签是 “喜欢吃水果、爱游泳”，AI 看标签相似，就知道 “小明和小红都喜欢吃水果”。

关键优势：解决了 “词的相关性” 问题，AI 终于能区分 “同类词” 和 “异类词”。

（2）BERT：给词 “看上下文”，解决 “一词多义”

Word2Vec 有个小缺点：同一个词在不同语境下，向量是一样的。比如 “银行” 在 “取钱的银行” 和 “河边的银行” 里，Word2Vec 给的向量相同，AI 分不清意思。

而 BERT 的核心能力，就是 “根据上下文给词发不同的数字卡”：

句子 “我去银行取钱” → 银行的向量是 [0.9, 0.1, 0.2]（代表金融机构）；句子 “河边有银行” → 银行的向量是 [0.1, 0.8, 0.3]（代表河边台阶）。

生活类比：就像给小明发 “场景标签卡”—— 在 “学校” 时，小明的标签是 “学生、上课”；在 “家里” 时，标签是 “儿子、吃饭”，AI 看场景标签，就知道 “小明在不同地方的身份不同”。

关键优势：解决了 “一词多义” 问题，AI 终于能像人一样，根据上下文理解词的真实意思。这也是现在 ChatGPT、文心一言等大模型能精准理解对话的核心技术之一。

三、小白实战：3 行代码实现 “词袋模型”，看文字怎么变数字

不用复杂工具，用 Python 的scikit-learn库，3 行代码就能把句子转成数字向量，新手也能跑通：

# 1. 安装库（第一次用，cmd输入：pip install scikit-learn）from sklearn.feature_extraction.text import CountVectorizer# 2. 准备要处理的句子（先做过文本预处理：分词、去停用词）sentences = ["我吃苹果", "我吃香蕉", "苹果香蕉都是水果"]# 3. 初始化词袋模型，转成数字向量vectorizer = CountVectorizer() # 初始化工具word_vector = vectorizer.fit_transform(sentences) # 句子转向量# 查看结果print("词汇表（所有词）：", vectorizer.get_feature_names_out()) # 输出：['苹果', '香蕉', '都是', '水果', '我', '吃']print("数字向量（每行对应一个句子）：")print(word_vector.toarray()) # 输出向量矩阵

运行结果解读：

词汇表是 6 个词：[' 苹果 ', ' 香蕉 ', ' 都是 ', ' 水果 ', ' 我 ', ' 吃 ']；句子 “我吃苹果” 的向量是 [1,0,0,0,1,1] → 苹果 1 次、我 1 次、吃 1 次，其他词 0 次；句子 “苹果香蕉都是水果” 的向量是 [1,1,1,1,0,0] → 苹果 1 次、香蕉 1 次、都是 1 次、水果 1 次，其他词 0 次。

你看，短短几行代码，就把文字变成了 AI 能懂的数字！

四、新手必知：文本表示的 “2 个核心逻辑”

不用记太多技术细节，记住这 2 个逻辑，就能理解文本表示的本质：

1. 逻辑 1：向量越 “像”，词的意思越近

无论是 Word2Vec 还是 BERT，核心都是 “用数字向量的相似度，代表词的语义相似度”。比如 “苹果” 和 “香蕉” 的向量距离近，AI 就认为它们意思相关；“苹果” 和 “汽车” 的向量距离远，AI 就认为它们无关。

2. 逻辑 2：越能 “抓语境”，表示越智能

从 One-Hot（不管语境）→ 词袋模型（不管语序）→ Word2Vec（懂关联）→ BERT（懂语境），文本表示的升级方向，就是 “越来越像人一样理解文字”—— 不仅知道 “词是什么”，还知道 “词在不同场景下是什么意思”。

五、结尾：文本表示是 AI “懂文字” 的 “第一块砖”

没有文本表示，再厉害的 AI 也像 “睁眼瞎”—— 看着满屏文字，却一个都读不懂。有了文本表示，AI 才能把文字变成 “数字密码”，进而做情感分析、机器翻译、智能对话。

就像人类学语言，先认识字母（对应文本预处理），再学字母怎么组成词（对应文本表示），最后才能学句子和文章。文本表示，就是 AI 学 “人类语言” 的 “识字阶段”。

下次用 AI 写文案、聊对话时，你就知道：背后有个 “翻译官”，正把你说的话，悄悄变成 AI 能懂的 “数字密码” 呢！

互动话题：你觉得 AI 还需要看懂哪些 “文字细节”？比如表情符号（😂）、网络热词（绝绝子），它们该怎么转成 “数字密码”？评论区聊聊你的想法～

六、参考文档

飞书云文档搜索：无双的AI学习笔记

文本表示的发展历程

文本表示概述

爱电竞