 | Lập trình Web Asp với tiếng Việt Unicode |  |
Gửi: T.Ba 19 1, 2010 2:04 pm |
|
|
 |
| it.558.vn |
| Thành viên mới |

|
| |
| Ngày tham gia | 20 11 2009 | | Số bài | 3 | | Trạng thái | Offline |
|
|
|
|
|
|
|
|
 |
Download tại: http://558.vn Ngôn ngữ: VietNam
Tác giả: Lê Đình Duy
Các khái niệm cơ bản về biểu diễn ký tự bên trong máy tính, lập trình Web với tiếng Việt Unicode...
Một số khái niệm căn bản về biểu diễn kí tự bên trong máy tính
Khái niệm về điểm mã, đơn vị mã, bảng mã
Về mặt bản chất, máy tính chỉ làm việc với các con số, do đó để biểu
diễn các kí tự trên máy tính cần phải có một qui ước nhất quán giữa các
kí tự cần biểu diễn và các con số tương ứng mà máy tính xử lí. Qui ước
này được thể hiện qua các bước sau:
- Chọn tập các kí tự cần mã hóa (character set).
- Gán cho mỗi kí tự cần mã hóa một giá trị nguyên không âm, gọi là điểm mã (code point).
- Chuyển các điểm mã thành dãy các đơn vị mã (code units) để cho phục
vụ cho việc lưu trữ và mã hóa. Một đơn vị mã là một đơn vị của bộ nhớ,
có thể là 8, 16, hay 32 bit. Các điểm mã không nhất thiết phải có cùng
số đơn vị mã.
Tập hợp những điểm mã của một tập các kí tự được gọi là một trang mã
(code page) hay còn gọi là bảng mã hay bộ mã. Như vậy khi nói về một
bảng mã, chúng ta quan tâm đến hai điều chính, số lượng các kí tự được
mã hóa, và cách mã hóa chúng thành các đơn vị mã.
Lấy ví dụ bảng mã ASCII, tập kí tự cần mã hóa có 128 kí tự bao gồm các
kí tự tiếng Anh, kí tự số, kí tự tiền tệ Anh, Mỹ và các kí tự điều
khiển hệ thống ngoại vi. Các điểm mã có giá trị nằm trong khoảng từ
0-127. Mỗi điểm mã được mã hóa bằng đúng một đơn vị mã 8 bit, có nghĩa
là đúng một byte.
Việc quyết định chọn cách mã hóa như thế nào sẽ quyết định số lượng kí
tự được mã hóa. Ví dụ, nếu chọn cách mã hóa các điểm mã bằng đúng một
đơn vị mã 8-bit thì số lượng điểm mã của một bảng mã (tạm gọi là bảng
mã 8 bit) chỉ có thể tối đa là 256.
Do bảng mã ASCII không đủ để biểu diễn các kí tự của các ngôn ngữ khác,
ví dụ như tiếng Việt, nên Microsoft đã nới rộng bảng mã ASCII bằng cách
sử dụng 128 điểm mã có giá trị từ 128-255 để mã hóa cho các kí tự ngoài
ASCII này. Tuy nhiên do chỉ có 128 điểm mã, trong khi số lượng các kí
tự của các ngôn ngữ khác nhiều hơn, nên Microsoft đã tạo ra nhiều bảng
mã khác nhau cho từng loại ngôn ngữ
|
|
|
|
|
Diễn đàn bachkhoadanang.net » Tài liệu chia sẻ cho các bạn Sinh Viên
Bạn không có quyền gửi bài viết Bạn không có quyền trả lời bài viết Bạn không có quyền sửa chữa bài viết của bạn Bạn không có quyền xóa bài viết của bạn Bạn không có quyền tham gia bầu chọn
|
Thời gian được tính theo giờ [GMT+ 7 giờ]
Trang 1 trong tổng số 1 trang
|
|
|
|
|
|