مقدمه
در درس قبل، دیدیم که استریمها (Streams) با دنبالهای از بایتها کار میکنند،
در حالی که برنامههای ما اغلب با دادههای متنی (رشتهها و کاراکترها) سروکار
دارند. کلاسهای کمکی مانند StreamReader و StreamWriter این فرآیند تبدیل را برای ما ساده
میکنند، اما در پشت صحنه، یک عملیات بسیار مهم در حال انجام است: انکدینگ
(Encoding) و دکدینگ (Decoding). کامپیوترها متن را به همان شکلی که
ما میبینیم، ذخیره نمیکنند؛ آنها فقط با اعداد (بایتها) کار میکنند. انکدینگ، فرآیند تبدیل
کاراکترهای متنی به دنبالهای از بایتها برای ذخیرهسازی یا انتقال است. دکدینگ، فرآیند معکوس یعنی
تبدیل آن دنبالهی بایتها به کاراکترهای قابل خواندن است.
درک مفهوم انکدینگ برای کار صحیح با فایلهای متنی، به خصوص در یک دنیای چندزبانه، بسیار حیاتی است.
انتخاب انکدینگ اشتباه میتواند منجر به نمایش نادرست کاراکترها (که اغلب به صورت علامت سؤال یا
کاراکترهای عجیب و غریب دیده میشود) و از دست رفتن دادهها گردد.
کلاس System.Text.Encoding
کلاس انتزاعی System.Text.Encoding کلاس پایهای است که تمام
استانداردهای انکدینگ در .NET از آن ارثبری میکنند. این کلاس متدهای اصلی GetBytes()
(برای انکد کردن یک رشته به آرایهای از بایتها) و GetString() (برای دکد کردن آرایهای از
بایتها به یک رشته) را تعریف میکند.
.NET چندین پیادهسازی استاندارد از این کلاس را به صورت پراپرتیهای استاتیک فراهم
میکند:
- Encoding.UTF8: رایجترین و استانداردترین انکدینگ برای وب و
فایلهای متنی مدرن. این انکدینگ از تمام کاراکترهای یونیکد پشتیبانی میکند و برای کاراکترهای
انگلیسی (ASCII) بسیار بهینه است. این انکدینگ، انتخاب پیشفرض برای بیشتر کلاسهای
StreamWriter و StreamReader است.
- Encoding.Unicode: معادل انکدینگ UTF-16 است. هر کاراکتر را با دو
یا چهار بایت نمایش میدهد.
- Encoding.ASCII: یک انکدینگ قدیمی ۷ بیتی که فقط ۱۲۸ کاراکتر اصلی
انگلیسی را پشتیبانی میکند و قادر به نمایش کاراکترهای زبانهای دیگر (مانند فارسی) نیست.
انکدینگ و دکدینگ به صورت عملی
بیایید ببینیم چگونه میتوانیم یک رشته را به بایت تبدیل کرده و سپس آن را برگردانیم.
Program.cs
using System.Text;
string originalString = "سلام C#!";
Console.WriteLine($"Original string: {originalString}");
Encoding utf8 = Encoding.UTF8;
byte[] encodedBytes = utf8.GetBytes(originalString);
Console.WriteLine("\nEncoded bytes (UTF-8):");
Console.WriteLine(BitConverter.ToString(encodedBytes));
string decodedString = utf8.GetString(encodedBytes);
Console.WriteLine($"\nDecoded string: {decodedString}");
در این مثال، ما ابتدا رشتهی فارسی خود را با استفاده از Encoding.UTF8 به دنبالهای از بایتها
تبدیل میکنیم. سپس همان بایتها را با استفاده از همان انکدینگ، به رشتهی اصلی برمیگردانیم.
اهمیت استفاده از انکدینگ صحیح
مشکل زمانی رخ میدهد که شما دادهای را با یک انکدینگ مینویسید، اما با انکدینگ دیگری تلاش به
خواندن آن میکنید.
Program.cs
string originalString = "€ 25";
byte[] utf8Bytes = Encoding.UTF8.GetBytes(originalString);
Encoding ascii = Encoding.ASCII;
string wrongString = ascii.GetString(utf8Bytes);
Console.WriteLine($"Original: {originalString}");
Console.WriteLine($"Decoded with wrong encoding: {wrongString}");
همانطور که میبینید، چون انکدینگ ASCII نمیداند که بایتهای مربوط به علامت یورو (€) چه هستند، آن
را با علامت سؤال جایگزین میکند و دادهی ما از بین میرود. این نشان میدهد که هماهنگی بین
انکدینگ در زمان نوشتن و خواندن چقدر حیاتی است.
مشخص کردن انکدینگ در StreamReader و StreamWriter
شما میتوانید انکدینگ مورد نظر خود را به عنوان یک پارامتر به سازندهی کلاسهای StreamReader و
StreamWriter ارسال کنید.
Program.cs
using (StreamWriter writer = new StreamWriter("myUnicodeFile.txt", append: false, encoding: Encoding.Unicode))
{
writer.WriteLine("This is a Unicode file.");
}
using (StreamReader reader = new StreamReader("myUnicodeFile.txt", encoding: Encoding.Unicode))
{
Console.WriteLine(reader.ReadToEnd());
}
Byte Order Mark (BOM)
برخی از انکدینگها (به خصوص انکدینگهای خانوادهی یونیکد مانند UTF-8 و UTF-16) میتوانند چند
بایت اضافی را در ابتدای استریم یا فایل قرار دهند. این بایتها که به آنها
Byte Order Mark (BOM) گفته میشود، مانند یک امضای مخفی عمل کرده و به
برنامههایی که فایل را میخوانند، کمک میکنند تا انکدینگ صحیح را به طور خودکار تشخیص دهند.
کلاس StreamReader در .NET به طور هوشمندانه میتواند وجود BOM را تشخیص دهد. اگر یک
فایل با BOM ذخیره شده باشد، StreamReader معمولاً میتواند انکدینگ آن را به درستی تشخیص دهد،
حتی اگر شما به صراحت آن را مشخص نکرده باشید. با این حال، همیشه بهترین رویه این است که در صورت
امکان، انکدینگ را به طور صریح مشخص کنید تا از هرگونه ابهام جلوگیری شود.