Класс параллельных вычислений мат-мех факультета --->Руководство пользователя для GNU Awk<--- 1024x768 TrueColor!

Руководство пользователя для GNU Awk

Arnold D. Robbins перевод Балуева А. Н.

16. Практические awk-программы

16.2 Разные awk-программы

Этот раздел содержит много разных программ. Надеемся , что вы найдете их и интересными и полезными.

1 Исследуйте код из раздела 15.9 [Слежение за границами файлов с данными], стр. 185. Почему wc использует отдельные переменные lines вместо значения FNR в endfile?

16.2.1 Нахождение повторных слов в документах

В начало страницы

Обычной ошибкой при написании больших объемов литературного текста является случайное повторение слов. Вы часто можете увидеть в тексте что-нибудь подобное такому: "the the program does the following . . . ." Когда текст расположен на экране, часто повторяющиеся слова попадаются в конце одной строки и начале следующей, делая их трудно обнаруживаемыми. Предлагаемая программа, `dupword.awk', просматривает файл по одной строке за раз и ищет соседние вхождения одинаковых слов. Она также запоминает последнее слово строки (в переменной prev) для сравнения с первым словом в следующей строке. Первые два оператора обеспечивают для строк нижний регистр, так что, например, "The" и "the" считаются равными друг другу. Второй оператор удаляет все небуквенные, нецифровые и не-whitespace символы из строки, так что пунктуация не влияет на сравнение. Это иногда приводит к указанию двойных слов, которые на самом деле различны, но такие случаи редки.

# dupword --- находит повторные слова в тексте
# Arnold Robbins, arnold@gnu.org, Public Domain # December 1991
-
$0 = tolower($0) gsub(/[^A-Za-z0-9 "t]/, ""); if ($1 == prev)
printf("%s:%d: duplicate %s"n",
FILENAME, FNR, $1) for (i = 2; i != NF; i++)
if ($i == $(i-1))
printf("%s:%d: duplicate %s"n",
FILENAME, FNR, $i) prev = $NF ""

16.2.2 Программа-будильник

В начало страницы

Следующая программа --- простая модель будильника. Вы задаете ей время дня и параметр-сообщение. В указанное время она печатает сообщение в стандартном выходе. Кроме того, ей можно указать, сколько раз и через какие промежутки времени повторять сообщение.

Эта программа использует функцию gettimeofday из раздела 15.8 [Управление временем], стр. 183.

Вся работа проделывается в правиле BEGIN. Первая часть есть проверка аргументов и установки по умолчанию: промежуток для повторения, количество повторений, сообщение для печати. Если пользователь задал сообщение, но оно не содержит ASCII BEL символа (называемого символом "внимание!") `"a'), то он добавляется к сообщению. (На многих системах печать ASCII BEL генерирует звуковой сигнал. Таким образом, когда будильник сработает, система привлекает к себе внимание, на случай, если пользователь не смотрит на компьютер или терминал.)

# alarm --- установить будильник
#Arnold Robbins, arnold@gnu.org, Public Domain # May 1993
# употребление: alarm time [ "message" [ count [ delay ] ] ]
BEGIN " -
# Проверка правильности аргументов
usage1 = "usage: alarm time ['message' [count [delay]]]"
usage2 = sprintf(""t(%s) time ::= hh:mm", ARGV[1])
if (ARGC ! 2) -
print usage ? "/dev/stderr" exit 1 "" else if (ARGC == 5) -
delay = ARGV[4] + 0 count = ARGV[3] + 0 message = ARGV[2] "" else
if (ARGC == 4) -
count = ARGV[3] + 0 message = ARGV[2] "" else if (ARGC == 3) -
message = ARGV[2] "" else if (ARGV[1] !~ /[0-9]?[0-9]:[0-9][0-9]/) -
print usage1 ? "/dev/stderr" print usage2 ? "/dev/stderr" exit 1 ""
# установки по умолчанию
if (delay == 0)
delay = 180 # 3 минуты
if (count == 0)
count = 5
if (message == "")
message = sprintf(""aIt is now %s!"a", ARGV[1]) else
if (index(message, ""a") == 0)
message = ""a" message ""a"

Следующая часть кода превращает time в часы и минуты, и если это нужно, в 24-часовое время. Затем оно превращается в количество секунд после полуночи. Затем текущее время переводится в количество секунд с полуночи. Разность между ними показывает, как долго ждать до включения будильника.

# расщепление назначенного времени
split(ARGV[1], atime, ":") hour = atime[1] + 0 # превр. в число
minute = atime[2] + 0 # превр. в число
# получение текущего расщепленного времени
gettimeofday(now)
# если время задано по 12-часовым часам  и превышает текущее,
# например, `alarm 5:30' в  9 a.m. значит  5:30 p.m.,
# то добавить 12 к реальному часу
if (hour ! 12 && now["hour"] ? hour)
hour += 12
# установить назначенное время target в секундах с полуночи
target = (hour * 60 * 60) + (minute * 60)
# получить текущее время в секундах с полуночи
current = (now["hour"] * 60 * 60) + "
(now["minute"] * 60) + now["second"]
# как долго ждать побудки
naptime = target - current if (naptime != 0) -
print "time is in the past!" ? "/dev/stderr" exit 1 ""

Наконец, программа использует системную функцию (см. раздел 12.4 [Встроенные функции ввода/вывода], стр. 146) вызова утилиты sleep. Эта утилита просто ждет указанное количество секунд. Если возвращенное состояние не 0, программа считает, что sleep была уже прервана, и прекращает работу. Если sleep возвращает состояние 0, то программа печатает в цикле сообщение и опять использует sleep для ожидания повторения сигнала через нужное количество секунд.

# zzzzzz..... go away if interrupted 
if (system(sprintf("sleep %d", naptime)) != 0)
# zzzzzzzzzzzzzz ...... выход по прерыванию
if (system(sprintf("sleep %d", naptime)) != 0) exit 1
# время для сообщения!
command = sprintf("sleep %d", delay) for (i = 1; i != count; i++) -
print message # если команда sleep прервана, то выход
if (system(command) != 0)
break ""
exit 0 ""

16.2.3 Транслитерация символов

В начало страницы

Системная утилита tr производит транслитерацию символов. Например, она часто используется для перевода букв верхнего регистра в соответствующие нижние в целях дальнейшей обработки: генерированные данные -- tr '[A-Z]' '[a-z]' -- обработка данных ...

Утилите tr задают два списка символов, заключенных в квадратные скобки. Обычно списки берутся в кавычки, чтобы удержать оболочку от попыток расширения файловых имен. *2* При обработке ввода первый символ из первого списке заменяется первым символом во втором списке, второй символ из первого списка заменяется вторым символом во втором списке, и т.д. Если в списке "из" символов больше чем в списке "в", то последний символ в списке "в" используется для оставшихся символов списка "из".

Некоторое время назад один из пользователей предложил нам добавить в gawk эту функцию. Будучи противником "ползучего улучшизма", я написал следующую программу, чтобы доказать, что транслитерация может осуществляться на уровне пользовательских функций. Эта программа не так полна, как системная утилита tr, но она может выполнить большинство работы.

Программа трансляции демонстрирует одну из немногих слабостей стандартной awk: действия с отдельными символами очень болезненны, требуя повторного употребления встроенных функций substr, index и gsub (см. раздел 12.3 [Встроенные функции для действий с цепочками], стр. 137).*3*

2 На старых, не-POSIX, системах tr часто не требует, чтобы списки заключались в квадратные скобки и кавычки.

3 Эта программа была написана до того, как gawk получила возможность помещать каждый символ цепочки в отдельный элемент массива. Как с помощью этого средства можно упростить программу?

Имеются две функции. Первая из них, stranslate, имеет три аргумента. Список from A содержит символы, подлежащие трансляции. Список to A содержит их образы после трансляции. target представляет цепочку, подлежащую трансляции.

Ассоциативные массивы делают трансляцию достаточно простой. t.ar содержит символы "в", индексированные символами "из". Простой цикл перебирает символы "из". Для каждого символа в "из", если он содержится в target, используется функция gsub для его замены на соответствующий символ.

Функция translate просто вызывает stranslate, используя $0 как target. Главная программа устанавливает две глобальных переменных, FROM и TO, из командной строки и затем изменяет ARGV так, что awk будет читать из стандартного ввода. Наконец, обрабатывающее правило просто вызывает translate для каждой записи.

# translate --- действует подобно  tr
# Arnold Robbins, arnold@gnu.org, Public Domain # August 1989
# различие: не работает точно так , как  tr A-Z a-z,
# Но если `to' короче чем  `from',
# последний символ в  `to' используется для остатка в  `from'.
function stranslate(from, to, target, lf, lt, t.ar, i, c) -
lf = length(from) lt = length(to) for (i = 1; i != lt; i++)
t.ar[substr(from, i, 1)] = substr(to, i, 1) if (lt ! lf)
for (; i != lf; i++)
t.ar[substr(from, i, 1)] = substr(to, lt, 1) for (i = 1; i != lf; i++) -
c = substr(from, i, 1) if (index(target, c) ? 0)
gsub(c, t.ar[c], target) "" return target ""
function translate(from, to) -
return $0 = stranslate(from, to, $0) ""
# главная программа
BEGIN -
if (ARGC ! 3) -
print "usage: translate from to" ? "/dev/stderr" exit ""
FROM = ARGV[1] TO = ARGV[2] ARGC = 2 ARGV[1] = "-" ""
-
translate(FROM, TO) print ""

Хотя и возможно производить транслитерацию средствами пользовательской функции, это недостаточно эффективно, и мы рассматривали вопрос о добавлении встроенной функции. Однако вскоре после написания этой программы мы узнали, что System V Release 4 awk добавил функции toupper и tolower. Эти функции обеспечивают большинство случаев, где необходима транслитерация, так что мы решили просто добавить эти функции к gawk и на этом остановиться.

Одно очевидное усовершенствование приведенной программы может быть в установке массива t.ar только один раз, в правиле BEGIN. Однако, это предполагает, что списки "из" и "в" не будут меняться во время работы программы.

16.2.4 Печать почтовых ярлыков

В начало страницы

Это программа из "реального мира". *4* Она читает списки имен и адресов и генерирует почтовые ярлыки. Каждая страница ярлыков содержит 20 ярлыков, два поперек и десять сверху вниз. Адреса гарантированно не превышают пяти строк с данными. Каждый адрес отделяется от следующего строкой пробелов.

4 "Реальный мир" определяется как " программа действительно используется для какого-то дела."

Основная идея состоит в чтении данных для 20 ярлыков. Каждая строка каждого ярлыка запоминается в массиве строк. Единственное правило предназначено для заполнения массива строк и печати страницы после того, как будут прочитаны 20 ярлыков.

Правило BEGIN просто устанавливает в RS пустую цепочку, так что awk будет разделять записи строками пробелов (см. раздел 5.1 [Как ввод разделяется на записи], стр. 37). Оно устанавливает MAXLINES на 100, поскольку MAXLINE есть количество строк на странице (20 * 5 = 100).

Большинство работы делает функция printpage. Строки ярлыка запоминаются последовательно в массиве строк. Но они должны печататься горизонтально; Строка line[1] вслед за line[6], line[2] вслед за line[7], и т.д. Два цикла используются для этих действий. Внешний цикл с параметром i имеет шаг в 10 строк данных; это дает один ряд ярлыков. Внутренний цикл с параметром j пробегает строки в пределах ряда. Так как j проходит от 0 до 4, `i+j' есть j-я строка в ряду и `i+j+5' есть вход в следующий ряд. Вывод заканчивается подобно следующему:

line 1 line 6 line 2 line 7 line 3 line 8 line 4 line 9 line 5 line 10

В заключение, на строках 21 и 61, печатается дополнительная пустая строка, чтобы вывод выравнивался по ярлыкам. Это зависит от особенностей используемых ярлыков в то время, когда писалась программа. Вы также увидите, что имеются две пустые строки наверху и внизу.

Правило END устроено так, что подавляет последнюю страницу с ярлыками; количество данных может быть не кратно 20 ярлыкам.

# labels.awk
# Arnold Robbins, arnold@gnu.org, Public Domain # June 1992
# Программа печати ярлыков по 5 строк каждый,
# возможны пустые строки . Страницы ярлыков имеют по 2
# пустые строки вверху и внизу.
BEGIN - RS = "" ; MAXLINES = 100 "" function printpage( i, j) -
if (Nlines != 0)
return
printf ""n"n" # header
for (i = 1; i != Nlines; i += 10) -
if (i == 21 ---- i == 61)
print "" for (j = 0; j ! 5; j++) -
if (i + j ? MAXLINES)
break printf " %-41s %s"n", line[i+j], line[i+j+5] "" print "" ""
printf ""n"n" # footer for (i in line)
line[i] = "" ""
# главное правило -
if (Count ?= 20) -
printpage() Count = 0 Nlines = 0 "" n = split($0, a, ""n")
for (i = 1; i != n; i++)
line[++Nlines] = a[i] for (; i != 5; i++)
line[++Nlines] = "" Count++ ""
END " -
printpage() ""

16.2.5 Генерирование счетчиков употребления слов

В начало страницы

Следующая ниже awk-программа печатает количество вхождений каждого слова в вводе. Она иллюстрирует ассоциативную природу массивов в awk посредством употребления цепочек в качестве индексов. Она также демонстрирует конструкцию `for x in array'.

Наконец, она показывает, как можно использовать awk вместе с другими утилитами для решения полезных задач достаточной сложности с минимальными усилиями. Некоторые пояснения приведены после листинга программы.

awk ' # Напечатать список частоты употребления слов -
for (i = 1; i != NF; i++)
freq[$i]++ ""
END -
for (word in freq)
printf "%s"t%d"n", word, freq[word] ""'

Первое, что нужно заметить об этой программе, это то, что она имеет два правила. Первое правило, имеющее пустой образец, выполняется для каждой записи во вводе. Оно использует механизм awk для доступа к полям (см. раздел 5.2 [Исследование полей], стр. 40) для выборки отдельных слов из записи и встроенную переменную NF (см. Главу 10 [Встроенные переменные], стр. 115) для определения числа полей.

Для каждого входного слова один из элементов массива freq увеличивается на 1 в знак того, что слово появилось еще раз.

Второе правило, так как оно имеет образец END, не выполняется пока не окончится ввод. Оно печатает содержание таблицы freq, которая была построена по первому правилу.

Эта программа имеет несколько недостатков, которые не позволяют ей быть полезной в случае реальных текстовых файлов:

Слова определяются с использованием соглашения awk, что поля отделяются посредством whitespace и что другие символы в вводе (кроме newline) не имеют специального смысла Это значит, что пунктуация считается частью слов.

Язык awk рассматривает символы верхнего и нижнего регистров как различные. Следовательно, `bartender' и `Bartender' не рассматриваются как одно и то же слово. Это нежелательно, поскольку в нормальном тексте слова начинаются с большой буквы, если стоят в начале предложения, и анализатор частоты не должен различать их.

Выход не идет в каком-то полезном порядке. Мы обычно интересуемся, какие слова употребляются наиболее часто, или хотим иметь алфавитный список слов с частотами их появления.

Путь для решения этих проблем состоит в использовании более совершенных средств языка awk. Прежде всего, нужно использовать tolower для устранения различий в регистрах. Затем, использовать gsub для удаления знаков пунктуации. Наконец, нужно использовать системную утилиту sort для обработки выхода по сценарию awk. Вот новая версия этой программы:

# Печатать список частот слов -

$0 = tolower($0) # устраняет различие в регистрах
gsub(/[^a-z0-9. "t]/, "", $0) # устраняет пунктуацию
for (i = 1; i != NF; i++)
freq[$i]++ ""
END -
for (word in freq)
printf "%s"t%d"n", word, freq[word] ""

Предположим, что эта программа лежит в файле с именем `wordfreq.awk' и что данные лежат в файле `file1'. Тогда следующий конвейер

awk -f wordfreq.awk file1 -- sort +1 -nr

выдаст таблицу слов, обнаруженных в файле `file1' в порядке убывания частоты.

Программа awk просматривает данные и выдает неупорядоченную таблицу слов. Затем результат awk сортируется утилитой sort и печатается на терминале. Параметр, указанный для sort в нашем случае, предписывает сортировку по второму полю входных строк (пропуская одно поле), так что ключи сортировки должны рассматриваться как числа (иначе `15' будет идти до `5'), и что сортировка должна идти в нисходящем (обратном) порядке. Мы могли бы даже сделать сортировку внутри программы, изменив действия END так:

END -
sort = "sort +1 -nr" for (word in freq)
printf "%s"t%d"n", word, freq[word] -- sort close(sort) ""

Нужно применять этот способ сортировки на системах, которые не имеют настоящих конвейеров.

См. общую документацию по операционной системе о деталях использования программы sort.

16.2.6 удаление дубликатов из несортированного текста

В начало страницы

Программа uniq (см. раздел 16.1.6 [Печать неповторяющихся строк текста ], стр. 220), удаляет повторяющиеся строки из отсортированного текста. Предположим, что нужно удалить повторяющиеся строки из файла с данными, но с сохранением существующего порядка строк? Хорошим примером этого может быть файл истории оболочки. Он содержит копии всех выданных команд и случается, что та же команда повторяется несколько раз. Возможно, вы захотите ужать историю удалением повторяющихся команд. Но желательно сохранить порядок оригинальных команд.

Следующая простая программа решает задачу. Она использует два массива. Массив data индексируется текстами каждой строки. Для каждой строки data[$0] увеличивается. Если некоторая строка не появлялась раньше, то data[$0] будет нулем . И в этом случае текст строки запоминается в lines[count]. Каждый элемент в lines есть уникальная команда, а индексы в lines указывают порядок, в котором эти строки были обнаружены. Правило END просто распечатывает массив lines в порядке count

# histsort.awk --- сжатая история оболочки
# Arnold Robbins, arnold@gnu.org, Public Domain # May 1993
# Благодарю  Byron Rakitzis за общую идею -
if (data[$0]++ == 0)
lines[++count] = $0 ""
END -
for (i = 1; i != count; i++)
print lines[i] ""

Эта программа также представляет фундамент для генерации другой полезной информации. Например, используя следующий оператор печати в правиле END, можно указывать, как часто некоторая команда была использована:

print data[lines[i]], lines[i]

Это работает, так как data[$0] увеличивалась каждый раз, когда появлялась строка.

16.2.7 Извлечение программ из файлов Texinfo Source

В начало страницы

И настоящая глава и предыдущая глава 15 [Библиотека awk-функций], стр. 169), содержат большое количество awk-программ. Если вы хотите поэкспериментировать с этими программами, будет скучно перепечатывать их вручную. Мы предлагаем программу, которая может извлекать части Texinfo input file в отдельные файлы.

Эта книга написана на Texinfo, языке GNU для форматирования проектной документации. Единый Texinfo source file может быть использован для получения и печатной и диалоговой документации. Texinfo полностью документирован в Texinfo-- GNU Documentation Format, и доступен из Free Software Foundation.

Для наших целей достаточно знать три вещи об Texinfo input files.

The "at" символ, `@', является специальным, во многом подобным `"' в Си или awk. Буквальные символы `@' представлены в Texinfo source files как `@@'.

Комментарии начинаются с или `@c' или `@comment'. Программа извлечения файлов будет работать при использовании специальных комментариев, которые начинаются с начала строки.

Текст примера, который не должен разрываться на границах страниц, заключается между строками, содержащими команды `@group' `@end group'.

Следующая программа, `extract.awk', читает Texinfo source file и делает две вещи на основании специальных комментариев. Обнаружив `@c system ...', она выполняет команду, извлекая текст команды из командной строки и передавая его системной функции (см. раздел 12.4 [Встроенные функции для ввода/вывода, стр. 146). По обнаружении `@c file filename', каждая последующая строка будет посылаться в файл filename, пока не появится `@c endfile'. Правила в `extract.awk' будут соответствовать либо `@c' либо `@c comment', допуская необязательность части `omment'. Строки, содержащие `@group' и `@end group' просто удаляются. `extract.awk' использует библиотечную функцию join (см. раздел 15.6 [Объединение массива в цепочку], стр. 176).

Программные примеры в диалоговом Texinfo source для Эффективного AWK-программирования (`gawk.texi') должны быть все заключены между строками `file' и `endfile'. Распределитель gawk использует копию `extract.awk' для извлечения образцов программ и установки многих из них в стандартные каталоги, где gawk может их найти. Файл Texinfo выглядит иногда подобно следующему:

...

Эта программа имеет блок @code-BEGIN"" , 
который печатает приятное сообщение:

@example @c file examples/messages.awk
BEGIN @- print "Не паникуйте!" @"" @c end file @end example

Она также печатает заключительный совет:
@example @c file examples/messages.awk END @-
print "Всегда избегайте скучных археологов!" 
@"" @c end file @end example ...

`extract.awk' начинает с установки IGNORECASE на один, так что смесь верхнего и нижнего регистров в директивах не будет иметь значения.

Первое правило действует, вызывая систему, проверяя, что команда была выдана (NF равно по крайней мере трем), и также проверяет, что команда закончила работу с состоянием 0, означающим OK.

# extract.awk --- извлечь файлы и выполнить программы
# из texinfo files 
# Arnold Robbins, arnold@gnu.org, Public Domain 
# May 1993

BEGIN - IGNORECASE = 1 "" /^@c(omment)?[ "t]+system/ " -
if (NF ! 3) -
e = (FILENAME ":" FNR) e = (e ": badly formed `system' line")
print e ? "/dev/stderr" next "" $1 = "" $2 = "" stat = system($0)
if (stat != 0) -
e = (FILENAME ":" FNR) e = (e ": warning: system returned " stat)
print e ? "/dev/stderr" "" ""

Используется переменная e, так что функция хорошо вписывается в страницу. Второе правило управляет переносом данных в файлы. Оно проверяет, что имя файла было указано в директиве. Если названный файл не является текущим, то текущий файл закрывается. Это значит, что некоторый `@c endfile' не был выдан для этого файла.

(Вероятно, мы должны печатать диагностику в этом случае, хотя сейчас этого не делаем.)

Цикл `for' выполняет свою работу. Он читает строки с помощью getline (см. раздел 5.8 [Явный ввод по getline], стр. 53). При неожиданном конце файла она вызывает функцию unexpected.eof. Если строка есть "endfile" , то она прерывает цикл. Если строка есть `@group' или `@end group', то она игнорирует ее и переходит к следующей строке. (Названные строки Texinfo control держат блоки кода вместе на одной странице; к несчастью, TEX не всегда достаточно ловок, чтобы делать все правильно, и мы должны давать ему советы.)

Большая часть работы проделывается несколькими следующими строками. Если в строке нет символов `@', она может быть непосредственно напечатана. В противном случае каждый ведущий `@' должен быть убран.

Для удаления символов `@' строка должна быть расчленена на отдельные элементы массива a с помощью функции split (см. раздел 12.3 [Встроенные функции], стр. 137). Каждый элемент массива a, который пуст, указывает на два соседних символа `@' в оригинальной строке. Для каждых двух пустых элементов (`@@' в оригинальном файле), мы должны добавить обратно один символ `@'.

Когда обработка массива закончена, вызывается join со значением SUBSEP, чтобы вновь соединить куски в единую строку. Затем эта строка печатается в выходном файле.

/^@c(omment)?[ "t]+file/ " -
if (NF != 3) -
e = (FILENAME ":" FNR ": badly formed `file' line") 
print e ? "/dev/stderr" next "" if ($3 != curfile) -
if (curfile != "")
close(curfile) curfile = $3 ""
for (;;) -
if ((getline line) != 0)
unexpected.eof() if (line ~ /^@c(omment)?[ "t]+endfile/)
break else if (line ~ /^@(end[ "t]+)?group/)
continue if (index(line, "@") == 0) -
print line ? curfile continue
"" n = split(line, a, "@") # если a[1] == "", это означает ведущий @,
# не добавляйте его обратно
for (i = 2; i != n; i++) -
if (a[i] == "") - # встретили  @@
a[i] = "@" if (a[i+1] == "")
i++ "" "" print join(a, 1, n, SUBSEP) ? curfile "" ""

Важно отметить употребление перенаправления `?'. Выход, сделанный с `?', открывает файл только один раз; он остается открытым и последующий вывод добавляется в конец файла (см. раздел 6.6 [Перенаправление вывода print и printf], стр. 70). Это позволяет нам легко смешивать текст программы с пояснениями в одном и том же куске исходного файла (как это сделано здесь!) без всяких затруднений. Файл закрывается только когда появляется имя нового файла с данными, или по концу входного файла.

Наконец, функция unexpected.eof печатает соответствующее сообщение об ошибке и прерывает программу.

Правило END завершает работу, закрывая открытый файл.

function unexpected.eof() -
printf("%s:%d: unexpected EOF or error"n", "
FILENAME, FNR) ? "/dev/stderr" exit 1 ""
END -
if (curfile)
close(curfile) ""

16.2.8 Простой поточный редактор

В начало страницы

Утилита sed есть "поточный редактор," т.е. программа, которая читает поток данных, вносит изменения в него и передает измененные данные дальше. Он часто употребляется для внесения глобальных изменений в большие файлы или в потоки данных, генерированных конвейерами команд.

sed есть довольно сложная программа. Она обычно используется для проведения глобальных подстановок в середине конвейера:

command1 ! orig.data -- sed 's/old/new/g' -- command2 ? result

Здесь `s/old/new/g' приказывает sed отыскивать regexp `old' в каждой входной строке и заменять его текстом `new' глобально (т.е. все вхождения в строке). Это похоже на awk-функцию gsub (см. раздел 12.3 [Встроенные функции для действий со строками], стр. 137).

Следующая программа, `awksed.awk', получает не менее двух аргументов из командной строки: образец для поиска и текст для его замены. Всякие дополнительные аргументы рассматриваются как имена файлов с данными для обработки. Если их нет, то используется стандартный ввод.

# awksed.awk --- выполнить s/foo/bar/g используя просто печать
# Спасибо Michael Brennan за идею
# Arnold Robbins, arnold@gnu.org, Public Domain 
# August 1995
function usage() -
print "usage: awksed pat repl [files...]" ? "/dev/stderr" exit 1 ""
BEGIN -
# проверяет в аргументах
if (ARGC ! 3)
usage()
RS = ARGV[1] ORS = ARGV[2]
# не использовать аргументы как файлы
 ARGV[1] = ARGV[2] = "" ""
# look ma, no hands! -
if (RT == "")
printf "%s", $0 else
print ""

Программа полагается на способность gawk иметь RS как regexp и на установку в RT фактического текста, оканчивающего запись (см. раздел 5.1 [Как ввод разделяется на записи], стр. 37).

Идея состоит в том, чтобы использовать RS как образец для поиска. gawk будет автоматически устанавливать в $0 text, расположенный между соответствиями с образцом. Этот текст мы не хотим изменять. Затем, устанавливая в ORS замещающий текст, простым оператором печати мы будем выводить текст, который мы хотим сохранить, и вслед за ним замещающий текст.

На этой схеме есть одна морщинка, состоящая в том, что делать, если последняя запись не заканчивается текстом, отвечающим RS? Безусловное употребление оператора печати выдаст замещающий текст, чего на самом деле нет.

Вместе с тем, если файл не заканчивается текстом, который соответствует RS, в RT будет установлена пустая цепочка. В этом случае мы можем печатать $0, используя printf (см. раздел 6.5 [Употребление оператора printf для декоративной печати], стр. 64).

Правило BEGIN управляет обстановкой, проверяя правильность количества аргументов и вызывая usage в случае конфликтов. Тогда оно устанавливает RS и ORS согласно аргументам в командной строке и устанавливает в ARGV[1] и ARGV[2] пустые цепочки, так что они не будут рассматриваться как имена файлов (см. раздел 10.3 [Использование ARGC и ARGV], стр. 120).

Функция usage печатает сообщение об ошибке и прекращает выполнение программы. Finally, the single rule handles the printing scheme outlined above, using print or printf as appropriate, depending upon the value of RT.

16.2.9 Простой путь использования библиотечных функций

В начало страницы

Использование библиотечных функций в awk может быть очень выгодным. Программы становятся более короткими и понятными. Приятно быть в состоянии писать программы подобно следующему:

# Библиотечные функции  
# @include getopt.awk @include join.awk ...
# главная программа
BEGIN -
while ((c = getopt(ARGC, ARGV, "a:b:cde")) != -1)
...
... ""

Следующая программа, `igawk.sh', обеспечивает такой сервис. Она моделирует поиск в gawk переменной AWKPATH и позволяет вложенные include; т.е., файл, который добавлен с помощью `@include', может сам содержать дальнейшие операторы `@include'. igawk прилагает усилия к тому, чтобы добавлять по include файл только один раз, так что вложенные include не приведут к повторному включению библиотечных функций.

igawk должен вести себя внешним образов, подобно gawk. Это значит, что он должна принимать из командной строки все аргументы для gawk, включая возможность иметь кратные исходные файлы, указанные через `-f', и способность смешивать файлы из командной строки с библиотечными входными файлами.

Программа написана с использованием POSIX Shell (sh) command language. Она работает следующим образом:

1. Просматривает аргументы, запоминая все, что не представляет интереса для исходный кода awk, для последующего использования при исполнении расширенной программы.

2. Всякий аргумент, который относится к тексту awk, помещается в временный файл, который будет расширен. Имеются два случая.

a. Буквальный текст, сопровождаемый словами `--source' или `--source='. Этот текст просто повторяется с echo. Программа echo автоматически выдает последующую newline.

b. Имена файлов, представленные с `-f'. Мы используем тонкую уловку, и echo вставляет `@include filename' во временный файл. Поскольку программа включения файла будет работать так же как работает gawk, это приведет к включению текста из файла в программу в нужной точке.

3. Выполняется некоторая awk-программа над временным файлом для реализации операторов `@include'. Расширенная программа помещается во второй временный файл.

4. Выполняется расширенная программа с аргументами gawk и всякими другими исходными аргументами командной строки, указанными пользователем ( такими как имена файлов с данными).

Начальная часть программы включает режим трассировки, если первый аргумент был `debug'. В противном случае оператор оболочки trap производит очистку всех временных файлов после окончания программы или при ее прерывании.

Следующая часть просматривает все аргументы командной строки. Имеются несколько представляющих интерес случаев.

-- Это завершает аргументы для igawk. Все остальное должно быть передано пользовательской awk-программе без всяких переделок.

-W Это указывает, что следующий параметр предназначен для gawk. Для облегчения обработки `-W' приписывается к фронту остающихся аргументов и просмотр продолжается. (Это --- прием в sh-программировании. Не обращайте на это внимания, если вы не знакомы с sh.)

-v -F  Эти параметры запоминаются и передаются  gawk.

-f --file --file= -Wfile=   
		Имя файла запоминается во временном файле
		`/tmp/ig.s.$$' с оператором  `@include'. 
		Утилита sed используется для
 		удаления ведущих частей с параметрами перед аргументами 
 		(например,`--file=').

--source --source= -Wsource=   
		Текст source передается по echo в `/tmp/ig.s.$$'.

--version --version -Wversion    
		igawk печатает номер версии,  выполняет
		`gawk --version' для получения информации 
		о версии gawk и делает exit.

Если не было `-f', `--file', `-Wfile', `--source', или `-Wsource', то первым аргументом должна быть awk-программа. Если в командной строке не оказалось никаких аргументов, igawk печатает сообщение об ошибке и выполняет exits. В противном случае первый аргумент передается по echo в `/tmp/ig.s.$$'.

В любом случае после обработки аргументов `/tmp/ig.s.$$' содержит полный текст исходной awk-программы.

$$' в sh представляет номер ID текущего процесса. Он часто используется в программах оболочки для создания уникальных имен временных файлов. Это позволяет многим пользователям запускать igawk, не заботясь о конфликтах с именами временных файлов.

Вот сама программа igawk:

#! /bin/sh
# igawk --- подобна  gawk но делает обработку  @include
# Arnold Robbins, arnold@gnu.org, Public Domain 
# July 1993
if [ "$1" = debug ] then
set -x shift else
# очистка при exit, hangup, interrupt, quit, termination
trap 'rm -f /tmp/ig.[se].$$' 0 1 2 3 15 fi
while [ $# -ne 0 ] # цикл по аргументам
do case $1 in --) shift; break;;
-W) shift
set -- -W"$@" continue;;
-[vF]) opts="$opts $1 '$2'"
shift;;
-[vF]*) opts="$opts '$1'" ;; -f) echo @include "$2" ?? /tmp/ig.s.$$
shift;;
-f*) f=`echo "$1" -- sed 's/-f//'`
echo @include "$f" ?? /tmp/ig.s.$$ ;;
-?file=*) # -Wfile or --file
f=`echo "$1" -- sed 's/-.file=//'` echo @include "$f" ?? /tmp/ig.s.$$ ;;
-?file) # get arg, $2
echo @include "$2" ?? /tmp/ig.s.$$ shift;;
-?source=*) # -Wsource or --source
t=`echo "$1" -- sed 's/-.source=//'` echo "$t" ?? /tmp/ig.s.$$ ;;
-?source) # get arg, $2
echo "$2" ?? /tmp/ig.s.$$ shift;;
-?version)
echo igawk: version 1.0 1?&2 gawk --version exit 0 ;;
-[W-]*) opts="$opts '$1'" ;;
*) break;; esac shift done
if [ ! -s /tmp/ig.s.$$ ] then
if [ -z "$1" ] then
echo igawk: no program! 1?&2 exit 1 else
echo "$1" ? /tmp/ig.s.$$ shift fi fi
# в этой точке  /tmp/ig.s.$$ содержит программу.

awk-программа для обработки директив `@include' читает программу строка за строкой с помощью getline (см. раздел 5.8 [Явный ввод с помощью getline], стр. 53). Имена входных файлов и операторы `@include' обрабатываются с помощью стека. Когда обнаруживается очередной `@include', имя текущего файла кладется на стек и текущим файлом становится тот, который назван в директиве `@include'. Когда файл заканчивается, из стека извлекается верхний файл и опять становится текущим. Процесс начинается, когда в стек кладется исходный файл.

Функция pathto проделывает работу нахождения полного пути к файлу. Она моделирует поведение gawk при поиске переменной окружения AWKPATH (см. раздел 14.3 [Переменная окружения AWKPATH], стр. 166). Если имя файла имеет в себе `/', поиск пути не производится. В противном случае имя файла соединяется с именем каждого каталога на пути и делается попытка открыть файл с генерированным так именем. Единственный путь в awk для проверки того, что файл может быть прочтен, есть попытка чтения его по getline; это и проделывает pathto. *5* Если файл читается, он закрывается и его имя возвращается функцией.

gawk -- ' # обработка директив @include
function pathto(file, i, t, junk)

5 В самых старых версиях awk тест `getline junk ! t' может зациклиться, если файл существует, но пуст.

-
if (index(file, "/") != 0)
return file
for (i = 1; i != ndirs; i++) -
t = (pathlist[i] "/" file) if ((getline junk ! t) ? 0) -
# если найден
close(t) return t "" "" return "" ""

Главная программа содержится внутри правила BEGIN. Первое, что она делает, это установка массива pathlist, который использует pathto. После разделения пути на `:' пустые элементы заменяются на "." которые представляют текущий каталог.

BEGIN -
path = ENVIRON["AWKPATH"] ndirs = split(path, pathlist, ":")
for (i = 1; i != ndirs; i++) -
if (pathlist[i] == "")
pathlist[i] = "." ""

Стек инициализируется значением ARGV[1], которое будет `/tmp/ig.s.$$'. Затем идет главный цикл. Входные строки читаются друг за другом. Строки, которые не начинаются с `@include', печатаются дословно. Если строка начинается с `@include', то имя файла находится в $2. Вызывается pathto для генерации полного пути. При неудаче мы печатаем сообщение об ошибке и продолжаем работу.

Следующее, что нужно сделать, это проверить, не был ли этот файл включен ранее. Обрабатываемый массив индексирован полными именами каждого включенного (по @inckude) файла, и этот факт позволяет нам получить нужную информацию. Если файл уже встречался, печатается предупреждение об этом. В противном случае новый файл кладется на вершину стека и процесс продолжается.

Наконец, когда getline обнаруживает конец входного файла, он закрывается и из стека извлекается верхний элемент. Когда указатель стека становится меньше нуля, программа кончает работу:

stackptr = 0 input[stackptr] = ARGV[1] # ARGV[1] есть первый файл


for (; stackptr ?= 0; stackptr--) -
while ((getline ! input[stackptr]) ? 0) -
if (tolower($1) != "@include") -
print continue "" fpath = pathto($2) if (fpath == "") -
printf("igawk:%s:%d: cannot find %s"n", "
input[stackptr], FNR, $2) ? "/dev/stderr" continue ""
if (! (fpath in processed)) -
processed[fpath] = input[stackptr] input[++stackptr] = fpath "" else
print $2, "included in", input[stackptr], "
"already included in", " processed[fpath] ? "/dev/stderr" ""
close(input[stackptr]) "" ""' /tmp/ig.s.$$ ? /tmp/ig.e.$$

Последний шаг состоит в вызове gawk для исполнения расширенной программы с оригинальными параметрами и аргументами командной строки, указанными пользователем. Статус при окончании gawk передается обратно к вызову программы igawk.

eval gawk -f /tmp/ig.e.$$ $opts -- "$@"
exit $?

Приведенная версия igawk представляет мой третий вариант этой программы. Имеются три ключевых упрощения, которые заставляют программу работать лучше.

1. Использование `@include' даже для файлов, названных с `-f', делает построение исходной собранной awk-программы много более простым; все `@include' обрабатываются за один раз.

2. Функция pathto не старается запомнить строку, прочтенную getline при проверке доступности файла . Попытка запомнить эту строку для использования с главной программой значительно усложняет работу.

3. Использование цикла getline в правиле BEGIN позволяет сделать все это в одном месте. Нет необходимости устраивать отдельный цикл для обработки вложенных директив `@include'.

Итак, эта программа иллюстрирует, что часто стоит комбинировать программы на sh и awk вместе. Обычно так удается сделать довольно многое, не прибегая к программированию на низком уровне с помощью Си или Си++, и при этом часто легче получать определенного рода цепочки и манипулировать аргументами, используя оболочку, чем это делается в awk.

Наконец, igawk показывает, что не всегда необходимо добавлять новые черты к программе; часто без них можно легко обойтись. Что касается igawk, то нет веских причин строить обработку `@include' в самой gawk.

Как дополнительный пример к сказанному, рассмотрим идею иметь два файла в каталоге на пути поиска.

`default.awk'

Этот файл должен содержать по умолчанию некое множество библиотечных функций, таких как getopt и assert.

`site.awk'

Этот файл должен содержать библиотечные функции, которые специфичны для сайта или установки, т.е. локально разработанных функций. Имея отдельный файл, можно изменять `default.awk' согласно новым выпускам gawk, не требуя от системного администратора обновлять его каждый раз добавлением локальных функций.

Один пользователь предложил, чтобы gawk был модифицирован автоматическим чтением этих файлов при каждом запуске. Вместо этого, было бы очень просто приспособить для этого igawk. Поскольку igawk может обрабатывать вложенные директивы `@include', то `default.awk' может просто содержать директивы `@include' для желательных библиотечных функций.

В начало страницы

<<<

Оглавление

Страницы: 16 17

>>>