Этот метод использует в качестве базисных спектры КД 16 белков с известной вторичной структурой в диапазоне 178-260 нм с интервалом в 2 нм (всего по 42 точки в каждом из 16 спектров). Пусть С - прямоугольная матрица размером 1642, содержащая в качестве строк спектры КД эталонных белков. Умножая ее на свою транспонированную матрицу, получим симметричную квадратную матрицу CCT размером 1616. Приведем эту матрицу к диагональному виду с помощью ортогональной матрицы U (1616):
(CCT) U = UE. (1.2.16)
Матрица U будет состоять из 16 собственных векторов, а диагональная матрица Е - из 16 собственных значений матрицы CCT. Рассмотрим матрицу B, определяемую выражением
B = UTC. (1.2.17)
Это прямоугольная матрица, которая, также как и матрица исходных спектров КД базисных белков, имеет размер 1642. Ее строки можно использовать в качестве 16 новых ортогональных базисных спектров КД, каждый из которых представляет собой линейную комбинацию исходных белковых спектров. Разложение произвольного спектра КД по этим новым базисным спектрам, вместо исходных, оказывается более удобным, поскольку “значимость" каждого их них в этом разложении, то есть степень, в которой он представляет исходный набор базисных спектров, пропорциональна квадратному корню из соответствующего собственного значения. Из этого следует, что любой неполный набор из ортогональных базисных спектров, выбранный таким образом, что соответствующие им собственные значения максимальны, будет описывать произвольный белковый спектр КД лучше, чем любой неполный набор из исходных спектров базисных белков.
Ошибка, возникающая при аппроксимации экспериментального белкового спектра КД с помощью неполного набора наиболее “значимых" ортогональных базисных спектров, определяется следующей формулой:
. (1.2.18)
Здесь s - среднее квадратичное отклонение, n - число точек в спектре, m - число базисных спектров в исходном наборе, - число ортогональных базисных спектров в неполном наборе, используемом для реконструкции произвольного белкового спектра, а - собственные значения, расположенные в ряд в порядке убывания их величины. Случайная ошибка, связанная с погрешностью измерений при снятии спектров КД эталонных белков, приблизительно равна 0.3 единицы De. Сравним ее со значениями s, рассчитанными по формуле (1.2.18) для разных значений m (при m=16):
m |
s, ед. De |
3 |
0.38 |
4 |
0.24 |
5 |
0.17 |
6 |
0.12 |
Из приведенной таблицы видно, что четыре ортогональных базисных спектра дают значение s, нe превышающее уровень случайной ошибки. Но эксперименты показывают, что форма реконструированного таким образом спектра плохо совпадает с реальной. Пять ортогональных базисных спектров дают значение s, в два раза меньшее уровня случайной ошибки, и при этом хорошо воспроизводят форму спектра. Шесть ортогональных базисных спектров дают лишь незначительное улучшение.
Это объясняется тем, что оставшиеся базисные спектры представляют собой ни что иное, как “шум”, и их учет приводит лишь к увеличению ошибки при вычислениях. Авторы данного метода использовали для вычислений пять "наиболее значимых" ортогональных базисных спектров (m=5), полагая это количество оптимальным. Эти спектры представлены на рисунке 1.2.2.
Из выражения (1.2.17) следует, что
С = UB. (1.2.19)
Восстанавливая по сокращенному набору ортогональных базисных спектров исходный набор базисных спектров КД, можем написать:
, (1.2.20)
где - исходные базисные спектры (i=1,., 16; k=1,.,42), а- - пять "наиболее значимых" ортогональных базисных спектров. Эксперименты по воспроизведению исходных белковых спектров по формуле (1.2.20) показывают, что среднеквадратичная ошибка при этом составляет от 0.08 до 0.25, что является весьма хорошим показателем.
Представим данные рентгеноструктурного анализа для 16 базисных белков в виде матрицы S размером 168, содержащей величины относительного содержания в каждом из белков восьми структурных элементов: спиральной структуры, включая a - и 310-спирали, антипараллельной и параллельной b-структуры, b-изгибов I, II, III типов, других видов b-изгибов и оставшейся (“неупорядоченной”) структуры.
Как можно предполагать из того факта, что исходный набор базисных спектров может быть полностью восстановлен но основе лишь пяти спектров ортогонального базисного набора, спектры КД белков в диапазоне от 178 до 260 нм содержат в себе информацию лишь о пяти независимых типах вторичной структуры.
С точки зрения независимости спектров КД в качестве таких типов вторичной структуры могут быть приняты комбинации обычных типов вторичной структуры (a-спирали, b-структуры и т.д.), соответствующие пяти "наиболее значимым" ортогональным базисным спектрам.
Если для ортогональных базисных спектров также ввести матрицу структурных данных D (168), то аналогично формуле (1.2.19) можно записать
S = UD (1.2.21)
Как показывает эксперимент, структурная матрица S может быть полностью восстановлена на основе лишь пяти комбинаций элементов вторичной структуры матрицы D, соответствующих пяти "наиболее значимым" ортогональным базисным спектрам. Таким образом, эти комбинации обычных типов вторичной структуры являются (с точки зрения независимости спектров КД) независимыми вторичными "суперструктурами":
Номер "супер-структуры" |
a, 310 |
b ¯ |
b |
b-изг. I |
b-изг. II |
b-изг. III |
b-изг. др. |
Ост. типы |
1 |
1.77 |
0.30 |
0.20 |
0.16 |
0.07 |
0.12 |
0.14 |
1.06 |
2 |
0.56 |
-0.47 |
-0.06 |
-0.04 |
-0.07 |
-0.01 |
-0.09 |
-0.76 |
3 |
0.06 |
0.38 |
-0.12 |
0.01 |
0.02 |
0.01 |
0.01 |
-0.18 |
4 |
0.00 |
0.06 |
0.27 |
-0.04 |
-0.02 |
0.00 |
0.03 |
-0.06 |
5 |
-0.01 |
-0.01 |
0.02 |
0.16 |
0.02 |
0.05 |
0.00 |
-0.03 |
Следовательно, восемь рассматриваемых в данном методе стандартных структурных классов, вообще говоря, не являются строго независимыми, так как все они также могут быть описаны с помощью пяти независимых “суперструктур”, описанных выше.
Для применения данного метода к анализу спектров КД произвольных белков необходимо, чтобы анализируемый спектр также быть снят в диапазоне от 178 до 260 нм. Поскольку при его аппроксимации базисными спектрами рассматривается лишь небольшой их набор, то проблемы, связанной с неустойчивостью метода наименьших квадратов, не возникает. Однако, очевидно, что приемлемые результаты возможно получить только в том случае, если структурные характеристики исследуемого белка достаточно хорошо представлены среди базисных белков. Для установления достоверности полученных результатов авторы метода рекомендуют использовать метод наименьших квадратов без ограничений на коэффициенты разложения (смотри условия (1.2.2)). При этом большие по модулю отрицательные коэффициенты или большое отклонение их суммы от единицы свидетельствуют о том, что метод в данном случае неприменим. Подробнее об этом критерии будет говориться в следующем разделе.
Метод "выбора переменных" [7]. Обычный метод наименьших квадратов, используемый для представления произвольного спектра КД в виде линейной комбинации базисных спектров, имеет по сравнению с другими методами наибольшую гибкость. Это проявляется в том, что спектры базисных белков участвуют в разложении в различной степени в зависимости от характера конкретного спектра. Однако, эксперименты показывают, что наилучшее воспроизведение формы спектра не всегда дает лучшие результаты. Более того, метод наименьших квадратов оказывается неустойчивым к экспериментальной ошибке, если число используемых в разложении базисных спектров превышает информационное содержание анализируемого спектра (для спектров в диапазоне 178-260 нм оно приблизительно равно пяти, а в диапазоне 190-260 нм - четырем).
Метод "регуляризации" [4] решает эту проблему с помощью "регуляризатора", который стабилизирует систему, оставляя ей при этом значительную гибкость. Метод "ортогональных спектров" [5,6] достигает устойчивости метода наименьших квадратов за счет использования только пяти ортогональных базисных спектров, построенных на основе исходного набора спектров базисных белков. Однако, поскольку базисные спектры построены на основе фиксированного набора спектров базисных белков, степень участия последних при воспроизведении анализируемого спектра также оказывается в некоторой мере фиксированной, а гибкость метода - крайне низкой.