插件窝干货文章 Go语言字符串编码：Unicode和UTF-8到底是什么关系？

Go语言字符串编码：Unicode和UTF-8到底是什么关系？

UTF-8 Unicode 字符编码 102 来源： 2025-03-16

在Go语言中，字符串是由字节组成的序列，而这些字节通常是以UTF-8编码的Unicode字符。为了理解Unicode和UTF-8之间的关系，我们需要先了解它们各自的概念。

1. Unicode

Unicode是一个字符集，它为世界上几乎所有的字符和符号分配了一个唯一的数字编号，这个编号称为“码点”（Code Point）。Unicode的目标是为所有字符提供一个统一的编码标准，使得不同语言和符号可以在计算机中一致地表示。

码点（Code Point）：Unicode中的每个字符都有一个唯一的码点，通常用U+开头，后面跟着4到6个十六进制数字。例如，字符A的码点是U+0041，汉字中的码点是U+4E2D。

2. UTF-8

UTF-8是一种变长的字符编码方式，用于将Unicode码点编码为字节序列。UTF-8是Unicode的一种实现方式，它能够有效地表示Unicode字符集中的所有字符，并且与ASCII编码兼容。

变长编码：UTF-8使用1到4个字节来表示一个Unicode码点。对于ASCII字符（码点范围U+0000到U+007F），UTF-8使用1个字节表示，且与ASCII编码完全相同。对于其他字符，UTF-8使用2到4个字节表示。

3. Unicode和UTF-8的关系

Unicode是字符集：它定义了字符和码点之间的映射关系。
UTF-8是编码方式：它定义了如何将Unicode码点编码为字节序列。

换句话说，Unicode告诉你字符A的码点是U+0041，而UTF-8告诉你如何将这个码点编码为字节序列（在这个例子中，A的UTF-8编码是0x41）。

4. Go语言中的字符串编码

在Go语言中，字符串默认是以UTF-8编码的字节序列。Go语言提供了对Unicode和UTF-8的良好支持，你可以使用rune类型来表示一个Unicode码点，rune实际上是int32的别名。

字符串：在Go中，字符串是只读的字节切片（[]byte），通常包含UTF-8编码的字符。
rune：rune类型用于表示一个Unicode码点，它可以表示任何Unicode字符。

5. 示例代码

以下是一个简单的Go代码示例，展示了如何将字符串转换为Unicode码点和UTF-8编码：

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    str := "Hello, 世界"

    // 遍历字符串中的每个字符（rune）
    for i, r := range str {
        fmt.Printf("Character: %c, Unicode Code Point: U+%04X, UTF-8 Bytes: % x\n", r, r, []byte(string(r)))
    }

    // 获取字符串的UTF-8字节长度
    fmt.Printf("String length in bytes: %d\n", len(str))
    fmt.Printf("String length in runes: %d\n", utf8.RuneCountInString(str))
}

6. 输出解释

Character: 当前字符。
Unicode Code Point: 字符的Unicode码点。
UTF-8 Bytes: 字符的UTF-8编码字节序列。
String length in bytes: 字符串的字节长度。
String length in runes: 字符串的字符（rune）数量。

7. 总结

Unicode 是一个字符集，定义了字符和码点之间的映射关系。
UTF-8 是一种编码方式，用于将Unicode码点编码为字节序列。
在Go语言中，字符串默认是以UTF-8编码的字节序列，rune类型用于表示Unicode码点。

通过理解Unicode和UTF-8的关系，你可以更好地处理Go语言中的字符串和字符编码问题。

上一篇：Go语言字符串：UTF-8和Unicode到底是什么关系？

下一篇：Go语言字符串编码：Unicode和UTF-8究竟是什么关系？