پردازش فایل‌های ستونی با awk در لینوکس

مقدمه

تاکنون ابزارهایی مانند grep را برای پیدا کردن خطوط حاوی یک الگو و wc را برای شمارش یاد گرفته‌ایم. اما اگر بخواهیم پردازش‌های پیچیده‌تری انجام دهیم، به خصوص روی داده‌هایی که ساختار ستونی دارند چطور؟ برای مثال، چگونه می‌توانیم فقط ستون پنجم از خروجی یک دستور را استخراج کنیم یا مجموع اعداد یک ستون خاص را محاسبه نماییم؟

اینجاست که awk وارد میدان می‌شود. awk (که نام آن از حروف اول نام خانوادگی سازندگانش، Aho، Weinberger و Kernighan گرفته شده) یک زبان برنامه‌نویسی کامل است که برای پردازش متن، به ویژه داده‌های ستونی، طراحی شده است. awk فایل‌ها را خط به خط می‌خواند، هر خط را به فیلدها (ستون‌ها) تقسیم می‌کند و به ما اجازه می‌دهد تا عملیات‌های مختلفی را روی این فیلدها انجام دهیم. تسلط بر awk یکی از مهارت‌هایی است که یک کاربر معمولی را از یک کاربر حرفه‌ای لینوکس متمایز می‌کند.

ساختار اصلی یک دستور awk

در نگاه اول، سینتکس awk ممکن است کمی پیچیده به نظر برسد، اما ساختار اصلی آن بسیار منطقی است:

$ awk 'pattern { action }' filename

action (عمل): این بخش که درون آکولاد {} قرار می‌گیرد، به awk می‌گوید که چه کاری را انجام دهد. مثلاً { print $1 } به معنای «ستون اول را چاپ کن» است.
pattern (الگو): این بخش یک شرط اختیاری است. اگر این شرط برای خط فعلی برقرار باشد، action مربوط به آن اجرا می‌شود. اگر هیچ الگویی مشخص نشود، action روی تمام خطوط ورودی اجرا می‌گردد.

مهم‌ترین مفهوم در awk، فیلدها هستند. awk به طور خودکار هر خط ورودی را بر اساس یک جداکننده (به طور پیش‌فرض، فاصله یا tab) به فیلدهایی تقسیم می‌کند و آن‌ها را با متغیرهای $1، $2، $3 و الی آخر در دسترس قرار می‌دهد. متغیر $0 نیز همیشه به کل خط فعلی اشاره دارد.

مثال‌های کاربردی با awk

بیایید با چند مثال عملی ببینیم awk چگونه کار می‌کند.

مثال ۱: چاپ ستون‌های خاص

خروجی دستور ls -l یک نمونه عالی از داده‌های ستونی است که با فاصله از هم جدا شده‌اند. اگر بخواهیم فقط ستون نهم (نام فایل) و ستون اول (مجوزها) را چاپ کنیم، می‌توانیم خروجی ls -l را به awk پایپ کنیم:

$ ls -l | awk '{print $9, $1}'
myscript.sh -rwxr-xr-x
another_file.txt -rw-r--r--
...

مثال ۲: استفاده از جداکننده فیلد متفاوت

همانطور که گفتیم، جداکننده پیش‌فرض، فاصله است. اما بسیاری از فایل‌ها مانند /etc/passwd از جداکننده‌ی دیگری (در این مورد، کولون :) استفاده می‌کنند. برای مشخص کردن جداکننده دلخواه، از گزینه‌ی -F استفاده می‌کنیم. دستور زیر، نام‌های کاربری (ستون اول) را از فایل /etc/passwd استخراج می‌کند:

$ awk -F':' '{print $1}' /etc/passwd
root
daemon
bin
...

مثال ۳: فیلتر کردن با استفاده از الگو

قدرت awk زمانی بیشتر می‌شود که از الگوها برای فیلتر کردن خطوط استفاده کنیم. الگو می‌تواند یک عبارت باقاعده (که در درس بعد با آن آشنا می‌شویم) یا یک شرط منطقی باشد. دستور زیر، فقط خطوطی از فایل /etc/passwd را پردازش می‌کند که حاوی کلمه bash باشند و سپس نام کاربری (ستون اول) و شل پیش‌فرض (ستون هفتم) آن کاربران را چاپ می‌کند.

$ awk -F':' '/bash/ {print "User:", $1, "uses shell:", $7}' /etc/passwd
User: root uses shell: /bin/bash
User: me uses shell: /bin/bash

بلوک‌های BEGIN و END

awk دو الگوی بسیار خاص به نام‌های BEGIN و END دارد که به ما کنترل بیشتری روی فرآیند پردازش می‌دهند.

بلوک BEGIN: دستورات داخل این بلوک، قبل از شروع خواندن اولین خط ورودی اجرا می‌شوند. این بلوک برای چاپ کردن عنوان (Header) یا مقداردهی اولیه متغیرها عالی است.
بلوک END: دستورات داخل این بلوک، بعد از پایان پردازش تمام خطوط ورودی اجرا می‌شوند. این بلوک برای انجام محاسبات نهایی و چاپ خلاصه‌ی نتایج ایده‌آل است.

مثال زیر نشان می‌دهد چگونه می‌توانیم مجموع اعداد یک ستون را محاسبه کنیم. فرض کنید فایلی به نام sales.txt با محتوای زیر داریم:

ProductA 15000
ProductB 22000
ProductC 18000

دستور awk زیر مجموع فروش (ستون دوم) را محاسبه و چاپ می‌کند:

$ awk 'BEGIN { print "Sales Report" } { sum += $2 } END { print "Total Sales:", sum }' sales.txt
Sales Report
Total Sales: 55000

در این دستور، بلوک BEGIN یک عنوان چاپ می‌کند، بلوک میانی به ازای هر خط، مقدار ستون دوم را به متغیر sum اضافه می‌کند و بلوک END در نهایت مقدار کل sum را نمایش می‌دهد.

درس قبل درس بعد