Bộ ký tự HTML


Để hiển thị trang HTML một cách chính xác, trình duyệt phải biết bộ ký tự (mã hóa) nào sẽ sử dụng:

Thí dụ

<meta charset="UTF-8">

Bộ ký tự HTML

Đặc tả HTML5 khuyến khích các nhà phát triển web sử dụng bộ ký tự UTF-8!

Điều này không phải luôn luôn như vậy. Mã hóa ký tự cho web ban đầu là ASCII.

Sau đó, từ HTML 2.0 đến HTML 4.01, ISO-8859-1 được coi là bộ ký tự tiêu chuẩn.

Với XML và HTML5, UTF-8 cuối cùng đã xuất hiện và giải quyết được rất nhiều vấn đề về mã hóa ký tự.


Trong phần đầu: ASCII

Dữ liệu máy tính được lưu trữ dưới dạng mã nhị phân (01000101) trong thiết bị điện tử.

Để chuẩn hóa việc lưu trữ văn bản, Bộ luật trao đổi thông tin tiêu chuẩn Hoa Kỳ (ASCII) đã được tạo ra. Nó xác định một số nhị phân duy nhất cho mỗi ký tự lưu trữ để hỗ trợ các số từ 0-9, bảng chữ cái viết hoa và viết thường (az, AZ) và các ký tự đặc biệt như! $ + - () @ <> ,.

Vì ASCII sử dụng 7 bit cho ký tự, nó chỉ có thể đại diện cho 128 ký tự khác nhau.

Điểm yếu lớn nhất của ASCII là nó loại trừ các chữ cái không phải tiếng Anh.

ASCII vẫn còn được sử dụng cho đến ngày nay, đặc biệt là trong các hệ thống máy tính lớn.

Để có cái nhìn sâu hơn, vui lòng nghiên cứu Tài liệu tham khảo ASCII hoàn chỉnh của chúng tôi .


Trong Windows: Windows-1252

Windows-1252 là ký tự mặc định được đặt trong Windows, cho đến Windows 95.

Nó là một phần mở rộng cho ASCII, với các ký tự quốc tế được thêm vào.

Nó sử dụng một byte đầy đủ (8-bit) để đại diện cho 256 ký tự khác nhau.

Vì Windows-1252 đã là mặc định trong Windows nên nó được hỗ trợ bởi tất cả các trình duyệt.

Để có cái nhìn sâu hơn, vui lòng nghiên cứu: Tài liệu tham khảo đầy đủ về Windows-1252 .



Trong HTML 4: ISO-8859-1

Bộ ký tự thường được sử dụng nhất trong HTML 4 là ISO-8859-1.

ISO-8859-1 là phần mở rộng của ASCII, với các ký tự quốc tế được thêm vào.

Thí dụ

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

Trong HTML 4, một bộ ký tự khác với ISO-8859-1 có thể được chỉ định trong thẻ <meta>:

Thí dụ

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Tất cả các bộ xử lý HTML 4 cũng hỗ trợ UTF-8:

Thí dụ

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Khi một trình duyệt phát hiện ISO-8859-1, nó thường mặc định là Windows-1252, vì Windows-1252 có thêm 32 ký tự quốc tế.

Để có cái nhìn sâu hơn, vui lòng nghiên cứu: Toàn bộ tài liệu tham khảo ISO-8859-1


Trong HTML5: Unicode UTF-8

Đặc tả HTML5 khuyến khích các nhà phát triển web sử dụng bộ ký tự UTF-8.

Thí dụ

<meta charset="UTF-8">

Một bộ ký tự khác với UTF-8 có thể được chỉ định trong thẻ <meta>:

Thí dụ

<meta charset="ISO-8859-1">

Unicode Consortium đã phát triển các tiêu chuẩn UTF-8 và UTF-16, vì bộ ký tự ISO-8859 bị giới hạn và không tương thích với môi trường đa ngôn ngữ.

Tiêu chuẩn Unicode bao gồm (gần như) tất cả các ký tự, dấu câu và ký hiệu trên thế giới.

Tất cả các bộ xử lý HTML5 và XML đều hỗ trợ UTF-8, UTF-16, Windows-1252 và ISO-8859.

Để có một cái nhìn sâu hơn, vui lòng nghiên cứu: Tài liệu tham khảo Unicode hoàn chỉnh .