Go语言字符串：UTF-8和Unicode到底是什么关系？

UTF-8 字节 Unicode 字符 287 来源： 2025-03-16

在Go语言中，字符串是由字节组成的，而这些字节通常是以UTF-8编码的。为了理解UTF-8和Unicode之间的关系，我们需要先了解一些基本概念。

Unicode是一个字符集，它为世界上几乎所有的字符分配了一个唯一的数字（称为码点，Code Point）。每个码点通常用U+开头，后面跟着一个十六进制数。例如，字符A的Unicode码点是U+0041。

UTF-8是Unicode的一种编码方式，它是一种可变长度的编码方式，使用1到4个字节来表示一个Unicode字符。UTF-8的设计使得它向后兼容ASCII，即ASCII字符在UTF-8中仍然是单字节的，且编码方式与ASCII相同。

在Go语言中，字符串是只读的字节切片（[]byte），默认情况下，这些字节是以UTF-8编码的。Go语言中的字符串可以包含任何字节序列，但通常它们是以UTF-8编码的Unicode字符。

换句话说，Unicode定义了字符的“身份”（码点），而UTF-8定义了如何在计算机中存储和传输这些字符（字节序列）。

Go语言对UTF-8有很好的支持。例如，range关键字在遍历字符串时，会自动将字符串解码为Unicode字符（rune），而不是逐个字节遍历。

s := "Hello, 世界"
for i, r := range s {
    fmt.Printf("%d: %c\n", i, r)
}

在这个例子中，r是一个rune类型的值，表示一个Unicode字符。i是字符在字符串中的字节索引。

理解UTF-8和Unicode的关系对于处理多语言文本和国际化应用非常重要。

推荐文章