字元可以包含多個程式碼點

Unicode 程式碼點,程式設計師經常想到的一個字元,通常對應於使用者認為是一個字元的內容。然而,有時候字元由多個程式碼點組成,如上面的例子所示。

這意味著切片字串或獲取給定索引處的字元等操作可能無法按預期工作。例如,字串 Café 4 字元是'e'(沒有重音)。同樣,將字串剪下為長度 4 將刪除重音。

這類程式碼點的技術術語是字形叢集。請參閱 UAX#29:Unicode 文字分段