![]() |
О звуке вообще и форматах в частности...
Мы живем в эпоху цифровых технологий, и современную жизнь практически невозможно представить без цифровых устройств, которые буквально окружают нас со всех сторон. И принцип действия этих устройств далеко не всегда понятен тому, кто ими пользуется. гораздо чаще привычные устройства являются для потребителя некими черными ящиками. Человек знает, какие действия нужно проделать с прибором на входе и что он получит на выходе, но понятия не имеет, что происходит у устройства внутри.
Современная цифровая аудиоаппаратура, как и вся электроника вообще, становится все более сложной, однако потребитель этого не замечает, поскольку удобство работы год от года только повышается. И тем не менее, тем, кто хочет работать со звуком профессионально, необходимо иметь более глубокие представления о принципах работы цифровой аудиоаппаратуры. А это невозможно, если не знать азов общей теории звука. Именно о них и пойдет речь в этой статье. Говоря о звуке, мы, как правило, не задумываемся о его физической природе. Между тем, понятие «звук» в физике неразрывно связано с понятием «волна». А волна - это перемещение в пространстве неких изменений состояния вещества или состояния самого пространства. Звуковая волна - это кол****ия молекул воздуха или другого вещества, которые передаются в пространстве на некоторое расстояние. Упорядоченное движение воздуха возникает в результате неких возмущений - например, кол****ий струны или мембраны громкоговорителя. Эти возмущения вызывают перепад давления, связанный с тем , что воздух при движении сжимается. Этот процесс порождает избыточное давление, а оно, в свою очередь, толкает соседние слои воздуха. Они, соответственно, тоже сжимаются - и возникает нечто вроде цепной реакции. Таким образом, понятие «звук» означает набор звуковых кол****ий, воспринимаемых человеческим ухом. Или не только человеческим, поскольку диапазон звуковых кол****ий, воспринимаемых слуховым аппаратом разных видов животных, существенно различается. То, что для дельфина - нормальный слышимый звук, для нас уже ультразвук, который мы расслышать не в состоянии. Как мы знаем из физики, основными характеристиками любых кол****ий, включая звуковые, являются амплитуда, частота и фаза. Еще одна характеристика - это скорость распространения кол****ий, и тут надо иметь в виду, что скорость распространения звука от других его характеристик не зависит. То есть слушатель воспринимает звук в точно такой же последовательности, в которой он создается источником. Возможность создания музыки, как некой гармоничной последовательности звуков, обладающей целым рядом отличий от обычного шума, предопределена, с одной стороны, свойствами звуковых волн, а с другой - особенностями слухового аппарата человека и восприятия звуков человеческим мозгом. С другой стороны, звуковые волны имеют целый ряд свойств, которые приводят к искажению звука. К их числу относится поглощение звуковых волн средой (что приводит к угасанию звука по мере удаления от источника), интерференция (наложение звуковых волн), рефракция (преломление звуковых волн на границе разных физических сред), реверберация (многократное отражение звуковых волн от твердой поверхности, что особенно характерно для распространения звука в замкнутом пространстве), резонанс (передача звуковых кол****ий некоему телу, которое само начинает кол****ься и воспроизводить звук) и другие. И все эти свойства и особенности звуковых волн, их возникновения, распространения и восприятия человеческим ухом и человеческим мозгом, необходимо учитывать как при разработке и изготовлении аудиоаппаратуры, так и при ее использовании |
Восприятие и сжатие звука.
Самые распространенные методы сжатия без потерь Huffman, LZW для сжатия аудиофайлов в большинстве случаев не приемлемы.
Использование простых методов сжатия, например, сжатие тишины и ADPCM - Adaptive Differential Pulse Code Modulation приводит к потерям. Сжатие стандарта CCITT G.721 -- от 16 до 32 Kbits/sec невозможно из-за того, что в процессе квантования часть информации теряется. Такие системы сжатия как ACE / MACE (компании Apple ), Linear Predictive Coding ( LPC ) и Code Excited Linear Predictor тоже обладают своими минусами. Методы сжатия, основанные на психоаккустике более приемлемые за счет следующего алгоритма кодека: - маскирование - деление сигнала на частотные подполосы Использование одного квантового уровня для нескольких входных значений за счет квантования сигналов в подполосах Самые известные представители - MPEG layers 2, MPEG layer 3 (MP3), AAC (Advanced audio coding). Для более доступного объяснения восприятия звуков стоит немного рассказать о строении уха. Внешнее ухо отвечает за локализацию источника звука в пространстве. Повышенная чувствительность в диапазоне 2kHz обуславливается резонированием внешнего ушного канала в этом диапазоне. Среднее ухо выступает «усилителем звука» за счет того, что в улитке находится жидкость, а снаружи воздух. Внутреннее ухо отвечает за частотный анализ, благодаря своему строению. Попадая в ухо и достигая конечной цели, звук претерпевает изменения. Для иллюстрации всего вышеизложенного можно привести следующие факты: - лучше всего воспринимается звук в диапазоне от 2 до 4 KHz, - самые громкие звуки, способные восприниматься ухом 96 dB - человеческое ухо способно различить изменения частоты начиная с 0,3% на частоте порядка 1kHz. - при различии сигналов по амплитуде менее чем на 1 дб – сигналы трудноразличимы. - ухо способно локализовать звук с точностью до 1 градуса. - Звуки различной частоты распространяются в воздухе с разной скоростью. - Человек не в состоянии заметить внезапное исчезновение высоких частот, если оно не превышает порядка 2ms - с возрастом воспринимаемый частотный диапазон сужается. Надо отметить, что частота во многом влияет на восприятие звука. При частоте до 1,5 кГц, к каждому нервному окончанию может подключится до 3-х нейронов , благодаря этому частотное разрешение улучшается в 3 раза. В определении местонахождения частот выше 1,5кГц, помагает разница амплитуд для правого и левого уха. Благодаря такой особенности возможно применение режимов Joint Stereo - запоминается либо информация для суммы правого и левого каналов и их разница, со значительно меньшей точностью (Mid/Side coding), либо вообще запоминается лишь амплитуда сигнала (Intensity coding). |
История цифровых форматов.
Ещё с начала семидесятых годов во многих странах мира, в том числе и в СССР, велись усиленные работы по разработке уникальной цифровой системы воспроизведения-звукозаписи. В результате технологами было создано несколько принципиально новых систем, но наиболее удачной была признана двойственная разработка таких фирм, как Philips и Sony. Первой был предложен эффективный способ подачи сигнала и его защиты. Вторая продемонстрировала метод записи информации с помощью специального лазерного луча при постоянной максимальной линейной скорости продвижения луча по записывающей дорожке.
Результаты не заставили ждать, и уже в 1982 году плоды работы этих фирм были утверждены международным стандартом, как уникальная система звукозаписи – воспроизведения компактного диска. А фирмам-конкурентам ничего не осталось, как выкупать лицензии у Philips и Sony. Высокое качество записи на различные носители предвещали данной разработке большую популярность. Это стало началом цифрового компакт-диска. На иностранном рынке стали продаваться различные проигрыватели мини-дисков и сами диски с различными аудио-записями. Но на отечественный макальный рынок они попали позже на десять лет. В тысяча девятьсот восемьдесят седьмом году был создан формат цифровых кассет R-DAT, которому уделялось место наследника компакт-кассет. А в тысяча девятьсот восемьдесят восьмом году разработчиками был предложен еще один уникальный формат кассет - DCC. В тысяча девятьсот девяносто третьем году впервые появился MiniDisc. Но, к сожалению, ни одному из этих форматом не удалось стать популярными, они не сумели не получить массовое распространение, а прижились разве что в студиях звукозаписи. Развитие глобальной компьютеризации способствовало росту компакт-дисков. На компьютерные компакт-диски (CD ROM) записывалась самая разная информация, хоть формат записи и немного отличался от Audio CD. Реализация цифровых форматов сжатия аудиозаписей стала ключом к всевозможным записям на диск более шести часов музыки или семьдесят четыре минуты видео отличного качества. С тысяча девятьсот девяносто шестой год по девяносто седьмой был разработан уникальный стандарт цифровых носителей, получивший название DVD. Стандарт предназначался для многоформатных записей и воспроизведения видеоинформации. Внешние параметры DVD мало чем отличались от CD, разве что в DVD меньше размеры информационных дорожек, а также DVD обладает многослойностью. На сегодняшний день окончательный вариант DVD до сих пор не утвержден. Одни разработчики DVD устройств выступают за использование технологий с использованием специального красного лазера, остальные – за применение довольно дорогой, но более емкой технологии с использованием универсального голубого лазера. Сегодняшняя ёмкость базового компакт диска составляет семьсот мегабайт, DVD же с использование технологий красного лазера – от четырёх до десяти гигабайт, а голубого лазера до двадцати семи гигабайт. Неправда ли интересная технологическая прогрессия? Снижение цен на компьютерную технику в последние годы, в особенности на пишущие CD приводы и комплектующие носители, никак не уменьшило популярности компакт-дисков. Хоть себестоимость DVD привода и специальных дисков становится все более доступной, формат СД не собирается уступать своё место в мире цифровых технологий |
О стандартах MPEG и их развитии
Сочетание букв можно понять как "Moving Picture Coding Experts Group", что означает - "Группа экспертов, кодирующая подвижные изображения". Все началось в январе 1988 года, когда MPEG был создан Международной организацией стандартов и Международной электротехнической комиссии. Группа была создана для формирования стандартов кодирования движимых изображений и звуковой информации. После с первого собрания в мае 1988 года группа начала увеличиваться и превратилась в довольно большую группу специалистов. Чаще всего в собрании MPEG участвуют примерно 350 специалистов из двухсот компаний. Встречи осуществляются примерно три раза в году. Большинство участников MPEG - это индивидуальные специалисты, которые занимаются в тех или иных научных и академических заведениях.
Прежде всего стоит упомянуть о комплекте MPEG-1. Данный комплект, в соответствии со всемирными стандартами ISO, включает в себя 3 алгоритма разного уровня сложности: Layer I, Layer II и Layer III. Вся структура процесса кодирования является одинаковой для всех уровней. Но не смотря на сходство уровней в общем подходе к кодированию, уровни отличаются целевым использованием и внутренними механизмами. Для определенного уровня указан нужный формат записи бит-потока и нужный алгоритм декодирования. Алгоритмы MPEG основываются на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека. Стандарт MPEG-2 был разрабатывался для кодирования ТВ сигналов вещательного ТВ. Стандарт MPEG-2 AAC стал результатом соединения сил института Fraunhofer, компаний Sony, NEC и Dolby. MPEG-2 AAC – это технологический приемник MPEG-1. Так как между опубликованием MPEG-2 AAC и его стандартизацией прошло много времени, свет увидели несколько видов этого алгоритма: Homeboy AAC, AT&T a2b AAC, Astrid/Quartex AAC, Liquifier AAC, FAAC (Freeware Audio Coder), Mayah AAC, PsyTEL AAC, QuickTime AAC, Sorenson и остальные. Процесс стандартизации AAC был достаточно долгим, поэтому многие из приведенных кодеров вначале были несовместимы между собой в формате выходного потока. Стандарт MPEG-4 заслуживает особого упоминания. MPEG-4 – это не просто алгоритмом сжатия, хранения и передачи видео или аудио информации. MPEG-4 является новым способом представления информации, это - объектно-ориентированное представление данных мультимедиа. Стандарт владеет объектами, организует из них иерархии, классы и многое другое, выстраивает сцены и управляет передачей. Объектами могут быть как обычные аудио или видео потоки, так и синтезированная аудио и графическая информация. Эти сцены описываются на особом языке. Нужно обратить внимание на то, что в качестве средств компрессии аудио в MPEG-4 используется комплекс нескольких стандартов аудио кодировки: улучшенный алгоритм MPEG-2 AAC, алгоритм TwinVQ и алгоритмы кодирования речи HVXC (Harmonic Vector eXcitation Coding) - для битрейтов 2-4 Кбит/с и CELP (Code Excited Linear Predictive) - для битрейтов 4-24 Кбит/с. Кроме этого, MPEG-4 предусматривает большое количество механизмов обеспечения масштабируемости и предсказания. Стандарт MPEG-7 вообще совершенно отличается от всех других стандартов MPEG. Стандарт создавался не для установления каких-то границ для передачи данных или типизации и описания данных какого-то конкретно рода. Стандарт создан как описательный, предназначенный для регламентации характеристик информации любого типа, даже аналоговой. Использование MPEG-7 должно быть в тесной связи с MPEG-4. Для удобства работы со сжатыми потоками, все алгоритмы MPEG разработаны так, что дают возможность осуществлять декомпрессию и воспроизведение потока одновременно с его получением– потоковая декомпрессия на лету. Эта возможность очень широко применяется в Интернете, где скорость передачи информации ограничена, а с использованием подобных алгоритмов появляется возможность работать с информацией прямо во время ее получения, не дожидаясь окончания передачи. |
о формате Mp3
Формат MP3 - один из универсальных закодированных форматов передачи, хранения и воспроизведения аудиосигнала в цифровой форме. Mpeg Layer 3 стал одним из самых популярных форматов реализации акустических данных. Используется преимущественно для проигрывания аудио в реальном времени для многофункционального кодирования CD.
MP3 - многоканальный формат. Передача информации реализуется потоком уникальных блоков данных - фреймов. Исходный сигнал при кодировании имеет структурный вид обособленных единиц , которые называются фреймами. При декодировании целостный сигнал составляется из монолитных декодированных фреймов. MP3 обладает высокой степенью компактности по сравнению с аналоговыми форматами. А также имеет более качественное звучание, которое достигается посредством дополнительного квантования по установленной схеме, что позволяет свести к минимуму различного рода помехи и сбои. Последнее достигается благодаря уникальности человеческого слуха, здесь применяется эффект маскирования сигнала первого диапазона частот более мощным сигналом второго диапазона. Это вызывает понижение чувствительности уха к воспроизводимому фрейму. Помимо этого, учитывается неспособность человека отличать сигналы по мощности, а также разных частотных диапазонов. Данные технологии называют адаптивным кодированием, они позволяют исказить некоторые наименее значимые детали звучания. MP3 на сегодняшний день обладает двумя преимущественными качествами перед остальными аналоговыми форматами. Ни один другой формат не выдаст стопроцентное устойчивое сохранение качества звучания помимо MP3. Формата MP3 имеет очень высокую популярность, а как следствие использование на самом разном программном оборудовании. MP3 применим везде, и имеет устойчивую монополию на рынке цифровых форматов. Открыли формат MP3 уже давно, но использовать его стали лишь несколько лет назад. Одними из первых пользователей стали «пираты», использующие удобные цифровые технологии для создания подделок. На сегодняшний день, MP3 является аудио форматом «номер один». По всему миру идёт производство различного технического оборудование с его включениями, создаются различного рода плееры, телевизоры, магнитолы. Хоть MP3 и появился довольно давно, на сегодняшний день ни один из современных форматов не может сохранять конкурентоспособность. Они способны лишь сравниваться с MP3 на низких звучаниях и пасовать при высоких. Также стоит сказать о монополии формата MP3 в сфере компьютерных технологий, даже формат WMA от Microsoft не способен претендовать на его место. Но столь сильная компания не перестаёт останавливаться и продолжает разработки с сфере аудио форматов. Может быть совсем скоро, MP3 будет вытеснен чем-то принципиально новым. |
О цифровом звуке
Музыкальные звуки содержатся на обычных CD-дисках в виде 16-битных чисел. Частота дискретизации сигналов на самых обычных компакт дисках составляет 44.1 Кгц. Очень жаль, что такое представление сигналов даже с применением dithering и noise shaping не позволяет добиться субъективного динамического и частотного диапазонов звукозаписи, которые соответствуют возможностям человеческого слуха и приводят к заметной деградации качества звука. Но все-таки услышать это ухудшение в большинстве своем смогут только звукорежиссеры, у которых есть возможность сравнивать звук с CD-дисков и исходный материал, который часто записан на двовольно дорогой аппаратуре в виде 20 или даже 24-битных чисел и временами с частотой дискретизации 96 Кгц и выше. Звукорежиссеры это, как чаще всего бывает, люди, которые не имеют ни музыкального, ни технического образования. По этой причине они формулируют свои мысли очень туманно и одновременно с этим превращают их в наукообразную форму в расчете на впечатлительных музыкантов. Изменение в худшую сторону в цифровом звуке в стандарте музыкального компакт диска они чаще всего называют терминами типа "звуковая грязь", "омертвение", "убийство звука", "жесткость", "тусклость", "отсутствие баланса", "задавленность", "транзисторное звучание", нехватка "прозрачности", а иногда даже "низкая разрешающая способность". Всеми этими эмоционально првильными, но ничего, в общем, не объясняющими терминами и ложными с научной точки зрения мылями богата практически любая статья о цифровой звукозаписи в часто встресающихся (так же часто, как и компьютерные издания!) популярных "звукорежиссерских" журналах о Hi-Fi и Hi-End (IN/OUT, Class A, Hi-Fi Audio и прочими). Для понимания процессов, которые происходят при звукозаписи, нужно увидеть, как создается музыкальный CD-диск как можно подробнее и с самого начала. Запись часто происходит в небольшом помещении с покрытием на стенках, а также на потолке и полу, которые поглощают звук. Звук по всем правилам сначала поступает на микрофоны, а потом уже на микшерский пульт. Подобные аналоговые устройства вполне могут сделать хуже качество звука еще перед аналого-цифровым преобразованием. Чтобы избежать "убийство" звука, лучше не использовать конденсаторные микрофоны с "фантомным" питанием, т.е. с подачей напряжения питания через сигнальные провода. Очень жаль, но хороший аналоговый микшерский пульт стоит довольно дорого. При отсутствии очень качественного аналогового микшера, по-видимому, надо пытаться, оцифровывать аналоговые сигналы с помощью многоканальных 20..24-битных звуковых компьютерных карт и все регулировки как можно раньше, сведения и остальные микшерские операции нужно производить уже в цифре. Запись оцифрованного звука лучше всего производить сразу же на жесткий диск персонального компьютера, и при этом как только можно избегать использования DAT магнитофонов из-за довольно-таки возможных и тяжело устранимых проблем с джиттером.
|
Принципы цифрового звука
Для начала нужно сказать, что сам принцип представления звука в цифровой форме предусматривает уничтожение какой-либо части информации в нем. Исходная, непрерывная кривая, которая описывает амплитуду звуковой волны, дискретизируется, т. е. разбивается на определенные интервалы (отсчеты), внутри которых амплитуда принимается за постоянную; таким образом фиксируются временные показатели волны. После чего эти мгновенные значения амплитуды еще раз делятся на окончательное количество значений - теперь уже по самой величине амплитуды - и выбирается самое близкое из этих дискретных значений; так фиксируются амплитудные показатели. Если говорить о самом графике (осциллограмме) звуковой волны, то надо сказать, что на него накладывается своеобразная сетка - крупная или мелкая, определяющая точность преобразования волны в цифровую форму.
Мелкость временной сетки - частота дискретизации - определяет в первую очередь частотный диапазон преобразуемого звука. В самых идеальных условиях для того, чтобы передать сигнал с верхней частотой F, хватит частоты дискретизации 2F, в реальных же, придется выбирать определенный запас. Точность же представления самих показателей амплитуды - разрядность отсчетов - определяет прежде всего уровень искажений и шумов, которые вносятся при преобразовании. Сравнительно высокие еще для начала 90-х годов параметры цифрового звука "16 бит/44.1 кГц" сейчас могут считаться только наименее допустимыми для понятий "качественный звук" и "Hi-Fi". В студийной работе осуществляется переход на стандарт "24 бита/96 кГц", который по теоретически достижимому качеству пока что значительно перекрывает возможности сегодняшних звуковых систем. Внутри стандарта под названием "компакт-диск", ограниченного своими 16 разрядами и 44.1 кГц частоты дискретизации, используется преобразование цифрового звука под высокую частоту дискретизации и разрядность с идущей после них интерполяцией промежуточных значений. Само по себе это не делает лучше качество звука, но все-таки позволяет сделать погрешности значительно ниже, которые возникают из-за неидеальности ЦАП, фильтров и других элементов тракта. В простой же компьютерной звуковой карте уже при самых простых записи-воспроизведении тяжело добиться даже качества хорошего проигрывателя компакт-дисков, уже не говоря о том, чтобы до конца "исчерпать" потенциальные характеристики внедряемых сейчас более высоких разрядностей и частот. Все это происходит из-за того, что компьютерная карта в большинстве своем является зависимым устройством, которая получает питание от источника компьютера и находится под влиянием всяческих помех и наводок от других компьютерных компонентов. |
Звук CD и mp3
Музыку из Интернета сегодня качает даже ленивый. Например вот хороший музыкальный портал Mp3Grad на нем вы можете скачать mp3 музыку. Повсеместное распространение технологий «сжатия аудио с потерями» — lossy-coding (MPEG, WMA, OGG Vorbis, VQF и многих других) — привело к тому, что достать музыку, некогда с таким трудом добываемую на аудиокассетах или CD, стало легко и просто. Это можно сделать в Интернете, даже не вставая с кресла. Такое положение вещей открыло новые возможности не только для пользователей, но и для тех, кто любит делать деньги на нечестном бизнесе. В этой статье речь пойдет о том, как нелегальный компьютерный бизнес использует современное ПО и компьютерные технологии в области звука. Мы поговорим об аудио CD, «нарезанных» из MP3-файлов, о том, как практически отличить оригинальный CD от фальшивого.
Что нужно, чтобы наладить производство аудио компакт-дисков? Завод по изготовлению болванок, машины для тиражирования CD и своя звукозаписывающая студия? Нет, сегодня это уже не так. Болванки можно купить в магазине за углом, писать диски потихоньку на домашнем компьютере на недорогом приводе CD-R, а музыку выкачивать из Интернета, например, в формате MP3 (MPEG-1 Layer III). Все просто и самое главное — дешево. Этим и пользуется нечистоплотный бизнес. «Бизнесмены» ставят подобное производство (с небольшими модификациями) на поток и продают результаты этого производства в магазинах, выдавая свои компакт-диски за оригинальные. Что в этом плохого, кроме некрасивого отношения к своим покупателям? Дело в том, что звучание подобных компактдисков если не катастрофически, то очень заметно отличается от звучания оригинальных композиций, из которых были сделаны использованные для записи CD MP3-файлы (то же самое относится и к файлам в других форматах). Кодирование с потерями качества. Это обусловлено самой природой кодирования. Компрессоры (подобные MP3), основанные на идее кодирования с потерями качества, преследуют две цели: закодировать аудио так, чтобы сжатые данные занимали как можно меньший объем памяти и звучали при этом как можно более близко к оригиналу. Способы, которыми достигаются эти две цели, могут быть различными, однако все они в результате приводят к тому, что закодированные данные при воспроизведении уже не являются оригинальным сигналом, а лишь похоже звучат. Такая деградация оригинального качества звука связана с тем, что в процессе кодирования данные сильно «упрощаются»: из них выбрасываются ненужные, слабослышимые или замаскированные детали, а также используются другие методы облегчения данных (подобная техника упрощения известна под понятием «психоакустическая модель»). Процесс декодирования уже не способен восстановить утраченные во время компрессии данные (нюансы звучания, отфильтрованные частоты). Поэтому, покупая сегодня аудио CD, можно столкнуться с тем, что компакт окажется подделкой и будет являть собой СD, созданный из декодированных MP3-файлов. А это означает, что качество звучания такого диска будет заведомо хуже оригинала. От слов к делу. Предположим, вы приобрели аудио CD. Не спешите выбрасывать чек — может быть, вам еще придется вернуть этот диск назад в магазин. Давайте разберемся, что вас может насторожить в покупке. Таких моментов несколько. Первый и наиболее очевидный — это вид самого компакт-диска. Фирменный диск всегда качественно упакован, имеет голографическую маркировку, штрих-код и т. д., что явно отличает его от китайской штамповки. Второй момент — это, конечно, звучание CD: если оно сопровождается странными помехами — это уже плохой признак, так как все упомянутые помехи являются типичными артефактами кодирования в MP3. Третий момент, на который тоже следует обращать внимание, — это неравная громкость звучания треков. Это может оказаться признаком того, что диск был записан с использованием не выровненных по уровню громкости MP3-файлов. Давайте попробуем разобраться, каким образом можно отличить оригинальный CD от диска, записанного с использованием MP3-файлов. Таких способов есть несколько. Однако ради справедливости отметим, что ни один из указанных ниже способов не гарантирует, к сожалению, стопроцентной уверенности в напрашивающихся выводах. Это связано с тем, что все способы, которые мы рассмотрим, опираются на известные особенности кодирования в MP3 (или подобного ему, основанного на использовании психоакустики). Поэтому грамотный и хитроумный специалист может при желании замести следы. Но все же шанс обнаружить подделку при внимательном и правильном изучении диска достаточно велик. Кроме того, все рассматриваемые способы требуют некоторого понимания процесса компрессии аудио в MP3. Способ № 1. Пустые начальные фреймы треков. Предпосылкой к рождению этого способа является одна специфическая особенность кодирования аудио в MP3. Кодирование данных происходит не целиком, а частями: аудиоданные разбиваются на так называемые «фреймы» длительностью 50 мс, и каждый фрейм анализируется и сжимается кодером отдельно. Тонкости этого процесса описывать не будем. Главным является то, что самый первый фрейм в созданном в результате кодирования файле MP3 оказывается пустым (или, точнее, почти пустым). А значит, при обратном декодировании MP3 в WAV-файл полученный аудиопоток будет содержать полную тишину (сигнал с нулевой амплитудой) протяженностью около 25-40 мс (в зависимости от кодера, использованного для компрессии). Таким образом, аудиотрек на неоригинальном аудио CD (в случае, если его передний край не подрезали специально перед созданием CD) характеризуется наличием короткого участка полной тишины. Чтобы проверить, не имеем ли мы дело как раз с таким треком, нужно загрузить WAV-файл в звуковой редактор (см. блок «Вещи первой необходимости»), подобрать масштаб по амплитудной и временной шкале, и в случае «успеха» мы увидим картину, похожую на представленную на рис. 1 (показан только левый канал трека). Масштаб временной шкалы следует подбирать так, чтобы на все видимое рабочее поле отображалось примерно 60- 100 мс от начала файла. Масштаб амплитудной шкалы следует выбирать покрупнее, так как нужно быть уверенным наверняка в том, что интересующий нас участок аудио действительно несет нулевую амплитуду, а не просто очень низкий по уровню ненулевой сигнал. Надо отметить, что полная тишина в начале трека еще не означает, что трек фальшивый. Не исключено, что при подготовке диска к записи оригинальный сигнал действительно был нарочно приглушен по краям. Поэтому, чтобы сделать верные выводы относительно всего CD, нужно внимательно изучить не один и не два трека, а желательно все. http://www.mp3sait.ru/files/0001.jpgРис.1. При таком масштабе хорошо видна 30-миллисекундная тишина в начале исследуемого трека. |
Что еще идет под нож при кодировании.
При сжатии в MP3 пользователь указывает желаемый битрейт (или границы изменения битрейта) для сжатого выходного потока (битрейт — количество бит, используемых для хранения одной секунды аудио). Чем ниже битрейт, тем меньше бит позволяется кодеру отводить для хранения информации об одной секунде аудио и, таким образом, тем хуже качество получаемого сжатого потока аудио. Наиболее распространенное среднее значение битрейта колеблется в пределах от 128 до 192 Кбит/с. Чтобы «справиться» с компрессией данных при достаточно низких битрейтах (таких как 96, 112 и 128 Кбит/с), некоторые кодеры MP3 перед применением психоакустики отфильтровывают из оригинальных данных все частотные составляющие, расположенные выше определенного предела (для 128 Кбит/с граничная частота обычно составляет 16 КГц). Это означает, что при декомпрессии аудио этих частот также не будет. А это в свою очередь означает, что если исследуемый диск «нарезан» из низкобитрейтных MP3-файлов, то нехитрый спектральный анализ покажет полное или частичное отсутствие частот выше определенной границы. Способ № 2. Определение границы фильтрации частот. Рассмотрим другой способ, основанный на специфических нюансах lossy-кодирования в MP3. Как было упомянуто выше, кодирование основано на «упрощении сигнала», которое сильно способствует повышению коэффициента сжатия (иными словами, упрощенный сигнал сжимается намного сильнее, чем оригинальный). В MPEG-1 Layer III под упрощением сигнала подразумевается применение к сжимаемым данным психоакустической модели. В процессе такой обработки из сигнала отфильтровываются, например, неслышимые и замаскированные частоты, а также резкие кратковременные всплески, нераспознаваемые или малозаметные для человеческого слуха. Подобная фильтрация тем агрессивнее, чем ниже битрейт используется для компрессии. Для того чтобы проверить нашу гипотезу, загрузим один из треков в редактор и посмотрим на этот трек в режиме сонограммы (в редакторе Cool Edit Pro режим просмотра сонограммы включается в меню «View –> Spectral View»). Пример того, как выглядит сонограмма WAV-файла, декодированного из MP3 128 Кбит/с, можно увидеть на рис. 2 (показан только левый канал). Как видите, частот выше 16 КГц просто нет. Более того, видна совершенно четкая граница фильтрации. Надо отметить, что этот метод проверки CD более точен. Однако и в этом случае нужно учитывать, что, во-первых, не все кодеры и не во всех режимах осуществляют такую жесткую фильтрацию — грамотно сжатый MP3 даже на низком битрейте более или менее правильно отражает спектральную картину оригинального сигнала во всей полосе частот. Поэтому даже если диск не оригинальный, подобной картины можно и не увидеть. Во-вторых, следует обратить внимание на то, что проблема имеет и обратную сторону. В ваших руках может оказаться оригинальный диск, который по результатам подобной проверки вы можете принять за фальшивый. Некоторые диски могут быть записаны со старых носителей (старые магнитные ленты, виниловые пластинки), где частотный диапазон ограничен либо качеством самого носителя, либо записывающей аппаратуры.http://www.mp3sait.ru/files/0002.jpgРис.2. Сонограмма аудиотрека из файла, сжатого в формат mp3. Видна четкая граница фильтрации частот - 16 КГц. |
Способ № 3. Анализ спектра сигнала.
Как мы уже сказали выше, помимо возможной фильтрации верхних частот, при кодировании в MP3 происходит сильное упрощение сигнала. Кодер анализирует аудиоинформацию и, опираясь на указанный пользователем битрейт, решает, какие тонкости звучания можно выбросить. Чем ниже битрейт, тем сильнее будут упрощены оригинальные аудиоданные. Такая обработка сигнала не проходит бесследно: сжатый сигнал начинает звучать менее естественно, а к звучанию добавляются «артефакты кодирования» («бульканье», позвякивание, заметные скачки уровня сигнала на различных частотах). Возвращаясь к практической части разговора, надо отметить, что описанные искажения и дефекты кодирования в той или иной степени можно распознать на сонограмме. Если анализируемый аудиоматериал действительно является декодированным из MP3, то такие артефакты будут различимы на сонограмме (в зависимости от битрейта исходного MP3 они будут различимы больше или меньше). Итак, для определения уровня искаженности сигнала берем фрагмент одного из треков с с наиболее насыщенным звучанием протяженностью 1-1,5, причем масштаб временной шкалы следует подобрать так, чтобы выбранный фрагмент занимал все рабочее поле. На рис. 3 в качестве примера приведена сонограмма фрагмента MP3-файла (128 Кбит/с). А теперь для сравнения посмотрите на сонограмму оригинального сигнала (рис. 4). Как видите, сонограмма оригинального сигнала выглядит гладко, однородно, без резких скачков и рваных краев. Первая же сонограмма выглядит, наоборот, очень прерывистой, зернистой, неоднородной. Это и есть результат попыток кодера максимально отработать всю полосу частот, сохранив тонкости звучания. Конечно, когда вы попытаетесь воспользоваться приведенным способом для определения подлинности купленного диска, в вашем распоряжении не будет оригинала. Однако представленная на рис. 3 сонограмма типична для низкобитрейтного MP3-файла и может послужить вам примером того, как выглядит неоригинальный сигнал. Видимая невооруженным глазом неоднородность, крупнозернистость и прерывистость спектра является наглядным примером наиболее характерных артефактов кодирования. Заметим, что наглядность снижается с увеличением битрейта MP3-файла. В качестве еще одного примера посмотрим на сонограмму того же сигнала, однако закодированного с битрейтом 160 Кбит/с (рис. 5). В этом случае неоднородность сигнала хотя и стала менее заметной, однако все равно различима. К сожалению, и этот способ не гарантирует абсолютной достоверности. Он лишь дает наиболее уверенные результаты, но тоже не претендует на объективность по нескольким причинам. Во-первых, не всегда исследуемый сигнал имеет фрагменты с таким наглядным насыщенным спектром. Во-вторых, при подготовке диска к записи профессионал может попытаться скрыть следы MP3-кодирования. Кроме уже описанного обрезания тишины в начале файла, он может попытаться скрыть артефакты кодирования путем пропускания декодированного сигнала через специальные программы, облагораживающие звучание и реконструирующие частотные составляющие. Однако все же этот способ анализа CD может оказаться решающим в определении происхождения купленного диска.http://www.mp3sait.ru/files/0003.jpgРис.3. Сонограмма франмента mp3 файла, закодированного с битрейтом 128 Кбит/с. http://www.mp3sait.ru/files/0004.jpgРис.4. Часть оригинальной композиции, на лицо большие однородность и гладкость отображения сигнала. http://www.mp3sait.ru/files/0005.jpgРис.5. Сонограмма то го же участка композиции, но закодированного с битрейтом 160 Кбит/с. |
Способ № 4. Поиск артефактов звучания путем вычитания каналов.
Последний способ, который может сыграть одну из решающих ролей в установлении истины, прост и красив. Способ основан на следующей идее. Обычно основная аудиоинформация расположена на стереопанораме приблизительно в центре. То есть по субъективным ощущениям слушателя источником звука является некий мнимый источник, находящийся посредине между двумя физическими. Артефакты кодирования же являются, как мы говорили, результатом невозможности точно отработать все тонкости звучания. Таким образом, вычитание сигнала одного канала из сигнала другого канала по сути выбросит все основное звучание, оставив только то, что находилось по бокам. Артефакты кодирования при этом станут намного заметнее, поскольку они окажутся выделенными на общем фоне. Теперь о том, как вычесть каналы. Загрузите один из WAV-файлов (треков) в редактор и произведите вычитание правого канала из левого (в Cool Edit Pro: выделите правый канал, скопируйте его в буфер, теперь выделите левый канал, воспользуйтесь меню «Edit –> Mix Paste », включите «Invert» и «Overlap», примените). Теперь, исключительно для удобства прослушивания, скопируйте полученный результат из левого канала в правый. В случае, если в вашем распоряжении оказался все-таки фальшивый трек, декодированный из MP3, результатом проделанной процедуры будет сигнал, содержащий все ужасы кодирования в MP3: все шумы, искажения и скрежет, «захлебывание» ударных, высокочастотный шум. Все это с большой долей вероятности окажется в полученном результирующем сигнале. Выводы. Личная практика автора по применению приведенных способов анализа показывает, что ни один из четырех представленных на ваш суд способов не является панацеей. Однако если большая часть результатов применения приведенных выше мето дов склоняет вас думать о подлоге, то, скорее всего, так оно и есть. |
Параметры цифрового звука
При создании стандарта аудио на компакт дисках были установлены значения 44 кГц, 16 бит. Именно 44 кГц и 16 бит, а не более, допустим 96 кГц и 24 или что-то в этом роде... Стоит упомянуть о разрешении сэмплирования - то есть с битности. Важно то, что выбирать можно только между числами 16, 24 и 32. Промежуточные значения могли быть удобнее в отношении звука, но плохо применимы при использовании в цифровой технике. Этот параметр отвечает за динамический диапазон.
Диапазон воспроизводимых в одно и то же время громкостей - от максимальной амплитуды (0 дБ) до той самой низкой, позволяемой передать разрешением. Это может показаться немного необычным, что оно сильно сопряжено с уровнем шумов фонограммы. П ри применении цифровых значений приходится постоянно ошибаться, округляя реальное аналоговое значение до наиболее близкого допустимого цифрового. Наименьшая возможная ошибка - нулевая, но больше всего мы можем ошибиться на половину последнего разряда. Из-за этой ошибки появляется так называемый шум дискретизации - случайное несовпадение оцифрованного сигнала с оригиналом. Данный шум характеризуется постоянностью и имеет максимальную амплитуду, иногда он носит название шума округления или квантования. Если говорить о мощности сигналов, которая измеряется в битах, то самый мощный сигнал в цифровой обработке звука принимают за 0 дБ, это становится в соответствие всем битам, которые ставятся в единицу. В случае обнуления старшего бита, то цифровое значение, которое получится, будет вдвое меньше того, что будет соответствовать потере уровня. Больше никакими битами, кроме старшего, нельзя достигнуть уровня выше существующего. Можно сказать, что старший бит как бы является гарантом наличия уровня сигнала до 0 дБ, значит можно сделать вывод, что старший бит является битом 0 дБ. Все компакт диски характеризуются частотой дискретизации 44100 Гц. Некоторые думают по этому поводу, что будут воспроизводиться все частоты до 22.05 кГц, но все немного по-другому. Прежде всего можно сделать ударение на то, что частот выше 22.05 кГц в оцифрованном сигнале не существует. Однако настоящая ситуация в отношении воспроизведения оцифрованного звука всегда находится в зависимости от конкретной техники и всегда не настолько прозрачна, акак можно было бы желать, глядя на теорию. Любой человек средних лет может чувствовать звуки от 10 Гц до 20 кГц, а слышать, воспринимая их - от 30 Гц до 16 кГц. Более низкие или высокие звуки тоже вопринимаются, но не дают возможности акустических ощущений. Звуки, которые выше 16 кГц, ощущаются как раздражающий неприятный фактор - боль, давление на голову, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Эти ощущения имеют такую силу, что на нем основывается действие охранных устройств - несколько минут очень громкого звука высокой частоты могут свести с ума кого угодно, после чего преступнику останется только одно - бежать. Звуки, которые ниже 35 - 40 Гц, при определенной амплитуде воспринимаются как вибрация, выдаваемая колонками. |
Загадки и Парадоксы Цифрового Звука
На графике спектра звука мы можем увидеть результат сравнения сигнала с набором синусоидальных кол****ий с различными постоянно увеличивающимися на постоянную величину частотами по оси X. Чем больше сигнал походит на синусоиду с данной образцовой частотой, тем выше величина пика на графике по оси Y. Поэтому синусоидальный сигнал должен иметь график спектра в виде одиночного пика. Однако если частота такого сигнала вплотную совпадает с частотой одной из образцовых синусоид. Иначе сигнал в каком-то смысле будет похож и на близлежащие по частоте образцовые синусоиды и на графике спектра появятся дополнительные пики. Теперь это можно называть парадоксом. Сигнал, который состоит из одной синусоиды, представится нам как сумма нескольких синусоид. Этот парадокс свойственен только БПФ спектрам.
Если мы оцифруем, например, аналоговый синусоидальный сигнал частотой Fs на частоте F1 и F2, то БПФ спектры одной и той же синусоиды будут выглядеть по-разному. То есть цифровой БПФ спектр одного и того же сигнала будет выглядеть по-разному. Не улучшает ситуацию популярный метод наложения "окна" или предварительного умножения отсчетов на некоторые функции, обычно имеющие вид колокола. Этот метод приводит практически к полному абсурду, ведь после него размывается и расщепляется даже одиночный пик на графике БПФ. При необдуманном использовании результатов БПФ это может привести к значительным погрешностям в измерениях. Хорошо, что существуют более точные методы вычисления спектров, широко применяемые в статистическом анализе временных рядов. Но даже с учетом недостатков БПФ спектр дает возможность наблюдать увлекательные явления. Допустим, весьма интересно и информативно наблюдать, как изменяется график БПФ спектра некоторого сигнала во времени. По оси Х - частота, по Y - время и в "третьем измерении" - амплитуда синусоид, из них по теории БПФ, состоит сигнал. Странно, но столь сложный с точки зрения цифрового спектрального анализа по методу БПФ сигнал субъективно чувствуется как монолитный, цельный и простой звук определенной частоты. Ухо человека физиологически имеет около 20 тысяч резонаторов (это не совсем точно, специалисты по анатомии человека могут возразить, но для дальнейшего изложения их поправки не существенны), настроенных на различные частоты, которые покрывают весь слышимый человеком диапазон от 10..20 гц до 20..25 Кгц. Если во входном звуковом сигнале содержится синусоидальное кол****ие с частотой, близкой к частоте настройки одного из резонаторов, на выходе резонатора появится электрическое напряжение, которое будет пропорционально мощности кол****ия, и по нервам поступит в мозг для дальнейшего восприятия. Эффект расщепления или размывания спектра должен быть и в человеческом ухе. Синусоидальный сигнал возбуждает не только резонатор, который точно настроен на его частоту, но и несколько соседних. Хотя при последующей обработке в мозге расщепление устраняется. Как бы там ни было, синусоидальный сигнал можно всегда услышать как чистый простой тон. Поэтому по крайней мере, на первом этапе функционирование нашего слуха частично напоминает вычисление спектра при помощи ПФ. Создается впечатление, что это и определяет популярность использования БПФ, спектрального анализа, графических эквалайзеров и индикаторов в звуковоспроизводящей и записывающей аппаратуре и в программном обеспечении персональных компьютеров, которое предназначено для обработки звуковых файлов. Но человеческий слух имеет свойство маскирования в частотной области. К тому же, человеческий слух менее чувствителен к наиболее низким и наиболее высоким частотам. Можно считать, что частоты ниже 10 Гц и выше 25 Кгц большинство людей не может услышать. |
Объективные параметры аудиоустройств
В принципе, качество работы колонок, усилителей, микрофонов, магнитофонов и другой аппаратуры, которая записывает или воспроизводит звук, оценивается “ на слух ” людьми, которые пользуются этой аппаратурой. Однако объективные показатели характеризуют только технические данные аудио устройств и только частично могут определить качество аппаратуры, из-за чего объективные показатели аппаратуры обработки звука постоянно будут иметь вспомогательный характер. Основное назначение объективных показателей – дать возможность покупателю быстро выбрать среди большого количества техники, которая продается, те устройства, которые хоть как-то удовлетворяют его потребности. Чаще всего используются объективные показатели, т. е. коэффициент нелинейных искажений, амплитудно-частотная характеристика и отношение сигнал/шум.
Нелинейные искажения говорят о чистоте звучания. Сам по себе это нужный параметр, но его трудно измерить, который чаще всего определяет разницу между любительской и профессиональной звукозаписывающей и звуковоспроизводящей аппаратурой. Для тех, кто в этом не далек, можно сказать по-другому: если на вход какого-то устройства обработки звука подать только синусоидальный сигнал на том основании, что он состоит только из первой гармоники (чистой синусоиды), то на выходе этого устройства можно получить сигнал, состоящий из суммы синусоидальных сигналов. Эти синусоидальные сигналы называют гармониками сигнала. Из этого следует, что выходной сигнал получается искаженным и складывается из исходного синусоидального сигнала и его гармоник. Количественное соотношение первой гармоники и гармоник с более большими номерами, называется коэффициентом нелинейных искажений. В обычных условиях дома можно измерить коэффициент нелинейных искажений при помощи специальной программы, которую можно достать в Интернете. Связь между сигналом и шумом показывает, насколько сильно исходит шум из аудио устройства. Под отношением сигнал/шум между аудио-инженерами понимается отношение мощности сигнала Pс к мощности шума Pш на выходе устройства расчета звукового сигнала. Чаще всего определяют Pс/Pш для синусоидального сигнала и равномерного по частоте шума, который пропускается по фильтру или по так называемому взвешивающему фильтру с характеристикой МЭК-А, моделирующих частотные показатели человеческого. Амплитуда синусоидального сигнала должна быть такой наиболее допустимой величины, при которой нелинейные искажения не будут превышать заявленного в техническом паспорте данного устройства значения. Чаще всего отношение сигнал/шум отображают в децибелах и рассчитывают по следующему правилу Pс/Pш(дБ) = 10 * log (Pc/Pш). Амплитудно-частотная характеристика – это тоже важный параметр, который сильно оказывает влияние на качество звука. Нормальная для Hi-Fi приспособлений амплитудная частотная характеристика должна иметь значения от 20 Гц до 20000 Гц. Если у АЧХ есть нижняя граница, которая является выше 50..60 Гц, то при прослушивании можно почувствовать нехватку низких частот. Если верхняя граница АЧХ будет ниже 15000..16000 Гц, то звук получится немного приглушенным, исчезнет "прозрачность звука". Хотя в определенных случаях, допустим при записи гитары через систему гитарный комбик-микрофон, важным условием очень хорошего звука является отличающаяся от линейной 20 Гц..20 кГц АЧХ. Прежде всего устройство обработки сигнала определяется коэффициентом усиления по напряжению Кu = Uвх / Uвых, где Uвх -это амплитуда поступающего на вход устройства синусоидального сигнала при частоте f, Uвых - амплитуда выходного сигнала устройства. Коэффициент усиления определяется то ли в огромных, либо в логарифмических единицах децибелов: Kuдб = 20 log Ku. Особенности частоты усилителя характеризуются амплитудно-частотной характеристикой. Это так называемая зависимость коэффициента усиления устройства от частоты входного тестового синусоидального сигнала. В определенных случаях, допустим при поиске наилучшего расположения микрофона по отношению к гитарному комбику при студийной или домашней звукозаписи может оказать помощь оперативное измерение АЧХ. |
| Текущее время: 19:33. Часовой пояс GMT +3. |
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd. Перевод: zCarot