Биология кластер что изучает

Презентация «Использование кластера на уроках биологии»

Онлайн-конференция

«Современная профориентация педагогов
и родителей, перспективы рынка труда
и особенности личности подростка»

Свидетельство и скидка на обучение каждому участнику

Биология кластер что изучает. presentation bg. Биология кластер что изучает фото. Биология кластер что изучает-presentation bg. картинка Биология кластер что изучает. картинка presentation bg.

Описание презентации по отдельным слайдам:

Использование кластера на уроках биологии

Кластер — это графическая форма организации информации, когда выделяются основные смысловые единицы, которые фиксируются в виде схемы с обозначением всех связей между ними. Современная система образования ориентирована на формирование у учеников самостоятельного мышления. Критическое мышление является педагогической технологией, стимулирующей интеллектуальное развитие учащихся. Кластер — один из его методов (приемов)

Основные принципы составления кластера Кластер оформляется в виде грозди или модели планеты со спутниками. В центре располагается основное понятие, мысль, по сторонам обозначаются крупные смысловые единицы, соединенные с центральным понятием прямыми линиями. Это могут быть слова, словосочетания, предложения, выражающие идеи, мысли, факты, образы, ассоциации, касающиеся данной темы.

Грибы Размножение Половое Бесполое Частями мицелия Спорами Почкование Строение Дрожжи Многоклеточные Плесневые (мукор) Одноклеточные Питание Симбионты Паразиты Гетеротрофы Сапрофиты Плесневые (пеницилл) Шляпочные Пластинчатые Трубчатые

Лист Простые По числу листовых пластинок Строение Парноперистые Листовая пластинка Черешок Прилистники Пальчатые Сложные Непарноперистые Тройчатые Внешнее Жилкование Функции Сетчатое Видоизменения Дуговое Параллельное Внутреннее Мякоть листа ( паренхима) Основание листа Кожица Жилка листа (сосудисто –волокнистый пучок) Фотосинтез Дыхание Вегетативное размножение Видоизменения Видоизменения Транспирация Видоизменения Видоизменения Видоизменения Усики(горох) Видоизменения Видоизменения Видоизменения Ловчие листья (росянка) Колючки(кактус) Видоизменения Видоизменения Видоизменения Видоизменения Запас веществ Мясистые листья (алоэ) Видоизменения Видоизменения Видоизменения Видоизменения

Питание Голозои Гетеротрофы Сапрофиты Паразиты Автотрофы Фототрофы Хемотрофы Плотоядные Миксотрофы Растительноядные Всеядные

К особенностям критического мышления относят наличие трех стадий: • вызов, • осмысление, • рефлексия. На первом этапе происходит активизация, вовлечение всех участников коллектива в процесс. Целью является воспроизведение уже имеющихся знаний по данной теме, формирование ассоциативного ряда и постановка вопросов, на которые хочется найти ответы. На фазе осмысления организуется работа с информацией: чтение текста, обдумывание и анализ полученных фактов. На стадии рефлексии полученные знания перерабатываются в результате творческой деятельности и делаются выводы.

Прием кластера может применяться на любой из стадий. На этапе вызова дети высказывают и фиксируют все имеющиеся знания по теме, свои предположения и ассоциации. Он служит для стимулирования познавательной деятельности школьников, мотивации к размышлению до начала изучения темы. На стадии осмысления использование кластера позволяет структурировать учебный материал. На стадии рефлексии метод кластера выполняет функцию систематизирования полученных знаний.

Применение кластера имеет следующие достоинства: он позволяет охватить большой объем информации; вовлекает всех участников коллектива в обучающий процесс; дети активны и открыты, потому что у них не возникает страха ошибиться, высказать неверное суждение.

В ходе данной работы формируются и развиваются следующие умения: умение ставить вопросы; выделять главное; устанавливать причинно-следственные связи и строить умозаключения; переходить от частностей к общему, понимая проблему в целом; сравнивать и анализировать; проводить аналогии.

Прием кластера развивает системное мышление, учит детей систематизировать не только учебный материал, но и свои оценочные суждения, учит ребят вырабатывать и высказывать свое мнение, сформированное на основании наблюдений, опыта и новых полученных знаний, развивает навыки одновременного рассмотрения нескольких позиций, способности к творческой переработке информации.

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Курс повышения квалификации

Дистанционное обучение как современный формат преподавания

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Курс профессиональной переподготовки

Методическая работа в онлайн-образовании

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Курс повышения квалификации

Современные педтехнологии в деятельности учителя

Ищем педагогов в команду «Инфоурок»

Биология кластер что изучает. a loader. Биология кластер что изучает фото. Биология кластер что изучает-a loader. картинка Биология кластер что изучает. картинка a loader.

Номер материала: ДБ-123068

Не нашли то что искали?

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Госдума приняла закон об использовании онлайн-ресурсов в школах

Время чтения: 2 минуты

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Учителям истории предлагают предоставить право бесплатно посещать музеи

Время чтения: 2 минуты

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Путин поручил не считать выплаты за классное руководство в средней зарплате

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Учителям предлагают 1,5 миллиона рублей за переезд в Златоуст

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Трехлетнюю олимпиаду среди школ запустят в России в 2022 году

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

В Москве новогодние утренники в школах и детсадах пройдут без родителей

Время чтения: 1 минута

Подарочные сертификаты

Ответственность за разрешение любых спорных моментов, касающихся самих материалов и их содержания, берут на себя пользователи, разместившие материал на сайте. Однако администрация сайта готова оказать всяческую поддержку в решении любых вопросов, связанных с работой и содержанием сайта. Если Вы заметили, что на данном сайте незаконно используются материалы, сообщите об этом администрации сайта через форму обратной связи.

Все материалы, размещенные на сайте, созданы авторами сайта либо размещены пользователями сайта и представлены на сайте исключительно для ознакомления. Авторские права на материалы принадлежат их законным авторам. Частичное или полное копирование материалов сайта без письменного разрешения администрации сайта запрещено! Мнение администрации может не совпадать с точкой зрения авторов.

Источник

Кластеры по биологии. Методическое пособие для учителя.

Биология кластер что изучает. presentation bg. Биология кластер что изучает фото. Биология кластер что изучает-presentation bg. картинка Биология кластер что изучает. картинка presentation bg.

Описание презентации по отдельным слайдам:

Кластеры по биологии. Методическое пособие для учителя.

Способы работы с кластерами: Составить новый кластер. Составить краткий рассказ по готовому кластеру с использованием слов, входящих в состав кластера. Сделать коррекцию готового кластера цветными маркерами Завершить неполный кластер. Определить главный термин. Исправить ошибки.

Углеводы В клетке Животные 1-5 % Растительные 90% Химия Cn(H2O)n Функции Энергетическая Запасающая Защитная Структурная Состав Простые Глюкоза Фруктоза Рибоза Сложные Дисахариды Сахароза Мальтоза Лактоза Полисахариды Крахмал Целлюлоза Гликоген Хитин

БИОЦЕНОЗ состав биоценоз биотоп структура видовая морфологическая трофическая пирамида численность биомасса энергия перевернутая круговорот вода азота фосфора кислорода и углекислого газа серы типы пустыня степь другие лиственный лес тундра лишайниковая моховая еловый другие сосновый

ЭКОЛОГИЯ питание продуценты консументы редуценты сообщества популяция биогеоцитоз биоценоз продолжительность жизни скорость роста разнообразие демография рождаемость плотность факторы полезные вредные антропогенные абиотические свет светолюбивые тенелюбивые вода гидро- гигро- мезо- ксеро- соленость температура теплолюбивые морозоустойчивые биотические позитивные симбиоз протокооперацил мутализм негативные паразитизм хищнечество конкуренции аменсалиции

питание автотрофы гетеротрофы миксотрофы хемотрофы фотосинтез хлорофилл родопсин голозои хищники всеядные фитофаги сапрофиты паразиты

кровь состав плазма Клетки крови эритроциты лейкоциты тромбоциты функции транспортная гуморальная выделительная терморегуляция защитная дыхательная группы I (00) II (AA,A0) III (BB,B0) IV (AB)

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Курс повышения квалификации

Дистанционное обучение как современный формат преподавания

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Курс повышения квалификации

Деятельность классного руководителя по реализации программы воспитания в образовательной организации

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Курс повышения квалификации

Организация образовательного процесса: воспитательная работа, дополнительное образование, внеурочная деятельность

Биология кластер что изучает. a loader. Биология кластер что изучает фото. Биология кластер что изучает-a loader. картинка Биология кластер что изучает. картинка a loader.

Номер материала: ДБ-583086

Не нашли то что искали?

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Утверждено стратегическое направление цифровой трансформации образования

Время чтения: 2 минуты

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Во Франции планируют ввести уголовное наказание за буллинг в школе

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

В школах Тюмени запустят раздельный сбор отходов

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Путин поручил не считать выплаты за классное руководство в средней зарплате

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Учителям предлагают 1,5 миллиона рублей за переезд в Златоуст

Время чтения: 1 минута

Биология кластер что изучает. placeholder. Биология кластер что изучает фото. Биология кластер что изучает-placeholder. картинка Биология кластер что изучает. картинка placeholder.

Госдума приняла закон об использовании онлайн-ресурсов в школах

Время чтения: 2 минуты

Подарочные сертификаты

Ответственность за разрешение любых спорных моментов, касающихся самих материалов и их содержания, берут на себя пользователи, разместившие материал на сайте. Однако администрация сайта готова оказать всяческую поддержку в решении любых вопросов, связанных с работой и содержанием сайта. Если Вы заметили, что на данном сайте незаконно используются материалы, сообщите об этом администрации сайта через форму обратной связи.

Все материалы, размещенные на сайте, созданы авторами сайта либо размещены пользователями сайта и представлены на сайте исключительно для ознакомления. Авторские права на материалы принадлежат их законным авторам. Частичное или полное копирование материалов сайта без письменного разрешения администрации сайта запрещено! Мнение администрации может не совпадать с точкой зрения авторов.

Источник

Приемы технологии развития критического мышления школьников на уроках биологии

Онлайн-конференция

«Современная профориентация педагогов
и родителей, перспективы рынка труда
и особенности личности подростка»

Свидетельство и скидка на обучение каждому участнику

Приемы технологии развития критического мышления школьников

на уроках биологии.

Я хотела бы начать свой доклад с проблем, с которыми сталкиваются учителя в процессе работы, чтобы потом обосновать свой выбор темы.

Анализируя мониторинг успеваемости и качества знаний учащихся по школе прихожу к выводу, что за последние 5 лет качество знаний учащихся не превышает 35%.

Снижение качества знаний учащихся в среднем звене, на мой взгляд, имеет свои причины: знания, успехи в учебе не являются главной ценностью учащихся в современном обществе. Уровень развития познавательной и поисковой деятельности учащихся недостаточен для осмысленного усвоения программ общеобразовательной школы, учащиеся не могут размышлять о новой информации и интегрировать ее с предыдущими знаниями и представлениями, они не хотят и не умеют участвовать в содержательных беседах, излагать свои идеи собственными словами и осваивать новый словарь. А также недостаточная включенность родителей в школьную жизнь ребенка, что влечет за собой определенные сложности в становлении личности ребенка.

Традиционно считается, что основная задача школы – это образование. На традиционном уроке учителя заинтересованы, прежде всего, в изучении учебного материала в соответствии с программными требованиями. Времени катастрофически не хватает. Авторитарная позиция учителя сковывает инициативу и самооценку учащихся, снижает уровень их развития и креативности. Дети пассивны. Вот и приходится учителю работать больше самому, при этом дети бездействуют и воспринимают информацию в готовом виде, не прилагая усилий в поиске знаний.

Мы обучаем в школе математике, физике, биологии и другим предметам. Всего, например, в 11 классе – 18 предметов обучения. Но, когда дети выходят из стен школы, они теряются и выясняется, что их не научили главному – таким жизненно – необходимым навыкам, как эффективному общению, самостоятельно решать проблемы, справляться с отрицательными эмоциями, адекватно вести себя в стрессовых ситуациях, сказать «нет», уметь отказывать, быть успешными в учебе и работе, и в целом в жизни. Из-за не сформированности этих жизненно-важных навыков молодые люди в будущем будут иметь низкую самооценку, неуверенность в себе, не смогут найти себя в обществе, в семье

Актуальность данной темы обусловлена необходимостью перемен в технологии образовательного процесса. В современном мире нужно бежать, чтобы просто оставаться на месте. Уже нельзя однажды научиться, чтобы потом всю жизнь быть квалифицированным специалистом. Непрерывное образование учителя превращается в жизненную необходимость. Поэтому главной задачей сегодня является научить ребят мыслить критически. Современное образование, рассчитанное на перспективу, должно строиться на основе двух принципов:

Умения быстро ориентироваться в стремительно растущем потоке информации и находить нужное.

Умения осмыслить и применить полученную информацию.

Преподавание предметов в школе претерпевают изменения. Первое место занимают развивающие и социализирующие цели, а само предметное содержание, уступив целевую функцию способам действий, получает новую роль – средства запуска и поддержания процессов саморазвития и самопознания ученика. Для того, чтобы решить эту задачу и применяются инновационные технологии. Одной, из которых является технология критического мышления, которая стимулирует интеллектуальное развитие школьников.

В связи с этим формирование критического мышления школьников, основанное на универсальном умении работать с информацией (находить, отбирать, анализировать информацию, оценивать ее достоверность и т. д.), является одной из актуальных задач современного образования. В свою очередь, способность анализировать информацию с позиции логики, умение выносить обоснованные суждения, решения и применять полученные результаты, как в стандартных, так и в нестандартных ситуациях в значительной степени способствует успешной самореализации личности.

Почему я предпочитаю технологию критического мышления, потому что в ней есть различные, интересные методические приёмы работы с текстом параграфа и ее осмысление, анализ через письменные формы деятельности. Многие учителя, я думаю, пользуются данными приемами на своих уроках. Лично мне они очень симпатичны и я ими стараюсь пользоваться. Они помогают развивать познавательную и творческую активность учащихся, усиливая мотивацию обучения.

Сегодня, я хочу вашему вниманию представить два наиболее широко распространенных приёма критического мышления, используемых мною на уроках биологии.

Это КЛАСТЕР и ИНСЕРТ

Уроки по развитию критического мышления через чтение и письмо строятся по особой формуле: вызов, осмысление и размышление.

Вызов — подготавливает учащихся к восприятию новой информации. В уроках старого типа этот этап часто называли актуализацией знаний.

Осмысление — это этап получения новых знаний, ввод новых понятий и терминов.

Размышление — этап усвоения новых знаний и умений, соотношения их с уже известными данными, сравнения, оценки и анализа.

Для каждого этапа в технологии РКМЧП предлагаются свои приемы

Возможно применение кластера на протяжении всего урока, в виде общей стратегии занятия, на всех его стадиях. Так, в самом начале дети фиксируют всю информацию, которой они владеют. Постепенно, в ходе урока, в схему добавляются новые данные. Желательно выделять их другим цветом. Данный прием развивает умение предполагать и прогнозировать, дополнять и анализировать, выделяя основное.

Основные принципы составления кластера

Кластер оформляется в виде грозди или модели планеты со спутниками. В центре располагается основное понятие, мысль, по сторонам обозначаются крупные смысловые единицы, соединенные с центральным понятием прямыми линиями. Это могут быть слова, словосочетания, предложения, выражающие идеи, мысли, факты, образы, ассоциации, касающиеся данной темы. И уже вокруг «спутников» центральной планеты могут находиться менее значительные смысловые единицы, более полно раскрывающие тему и расширяющие логические связи. Важно уметь конкретизировать категории, обосновывая их при помощи мнений и фактов, содержащихся в изучаемом материале.

Правила оформления кластера на уроке

В зависимости от способа организации урока, кластер может быть оформлен на доске, на отдельном листе или в тетради у каждого ученика при выполнении индивидуального задания. Составляя кластер, желательно использовать разноцветные мелки, карандаши, ручки, фломастеры. Это позволит выделить некоторые определенные моменты и нагляднее отобразить общую картину, упрощая процесс систематизации всей информации.

Применение метода кластер

Метод кластера может применяться практически на всех уроках, при изучении самых разных тем.

Кластер может быть использован как способ организации работы на уроке, так и в качестве домашнего задания.

Достоинства и результаты применения приема

Применение кластера имеет следующие достоинства:

он позволяет охватить большой объем информации;

вовлекает всех участников коллектива в обучающий процесс, им это интересно;

дети активны и открыты, потому что у них не возникает страха ошибиться, высказать неверное суждение.

В ходе данной работы формируются и развиваются следующие умения:

умение ставить вопросы;

устанавливать причинно-следственные связи и строить умозаключения;

переходить от частностей к общему, понимая проблему в целом;

сравнивать и анализировать;

Что дает применение метода кластера на уроках детям?

Прием кластера развивает системное мышление, учит детей систематизировать не только учебный материал, но и свои оценочные суждения, учит ребят вырабатывать и высказывать свое мнение, развивает навыки одновременного рассмотрения нескольких позиций, способности к творческой переработке информации.

Инсерт — что это такое?

Название приема представляет собой аббревиатуру:

I — interactive (интерактивная).

N — noting (познавательная).

S — system for ( система ).

E — effective ( для эффективного ).

T — thinking (и размышления).

В методике Инсерт часто называют и технологией эффективного чтения.

Как использовать прием «Инсерт» на уроках

1. Учащиеся читают текст, маркируя его специальными значками:

+ — это новая информация для меня;

— — я думал по-другому, это противоречит тому, что я знал;

? — это мне непонятно, нужны объяснения, уточнения.

Совет: маркировки в тексте удобнее делать на полях карандашом. Или можно подложит полоску бумаги, чтобы не пачкать учебники.

2. Заполняется таблица

Здесь тезисно записываются термины и понятия, встречающиеся в тексте, которые уже были известны.

Отмечается все новое, что стало известно из текста

Отмечаются противоречия. То есть, ученик отмечает то, что идет вразрез с его знаниями и убеждениями.

Перечисляются непонятные моменты, те, что требуют уточнения или вопросы, возникшие по мере прочтения текста.

Вот пример заполнения таблицы Инсерт на уроке биологии в 7 классе по теме «Водоросли»

Водоросли – это низшие растения.

Водоросли состоят из слоевища и ризоидов.

Водоросли могут питаться автогетеротрофно.

Бурые водоросли обитают на глубине 200м.

Считал, что водоросли живут только в воде.

Какое значение имеют водоросли в природе и в жизни человека

3. Чтение таблицы несколькими учениками (выборочно). идет обсуждение тезисов.

4. Повторное чтение текста. Эта стадия переводит урок уже в этап осмысления. При этом таблица может пополниться, либо какие-то тезисы уже перейдут из одной колонки в другую.

Нюансы применения приема ТРКМЧП Инсерт

В начале работы с приемом желательно использовать небольшие тексты, чтобы дети привыкли к обилию значков.(темы выбираются не очень сложные по содержанию)

Также в начале работы можно попросить их не записывать тезисы, а говорить их устно. Необходимо выработать навыки тезисной формулировки. (в 6кл., 7кл)

Таблица обсуждается по «колонкам». То есть, сначала то, что уже известно, затем то, что явилось новым и т.д.

В 6 классе таблицу можно сократить до трех колонок: «Знаю», «Узнал». «Интересуюсь»

Работа может проводиться как индивидуально, так и в парах, в группах.

Когда использовать прием Инсерт?

Прием Инсерт лучше всего подходит для уроков усвоения новых знаний, для урока коррекции ЗУН или для урока актуализации новых знаний и умений (по ФГОС). Возможен на всех этапах урока.

Прием требует от ученика не пассивного чтения, а внимательного. Если раньше он просто пропускал непонятные моменты в тексте, то прием Инсерт заставляет обратить на них внимание, сконцентрироваться на каждой строке текста.

Школьник, умеющий критически мыслить, владеет разнообразными способами интерпретации и оценки информационного сообщения, cпособен выделять в тексте противоречия и типы присутствующих в нем структур, аргументировать свою точку зрения, опираясь не только на логику (что уже немаловажно), но и на представления собеседника. Такой ученик чувствует уверенность в работе с различными типами информации, может эффективно использовать самые разнообразные ресурсы. На уровне ценностей, критически мыслящий учащийся умеет эффективно взаимодействовать с информационными пространствами, возможность сосуществования разнообразных точек зрения в рамках общечеловеческих ценностей.

И вот на этой позитивной ноте я хочу закончить свое выступление мудрой китайской пословицей: Расскажи мне – и я забуду

Покажи мне – и я запомню

Дай мне самому сделать это – и я пойму.

Я считаю, это очень верно отражает суть технологии развития критического мышления.

Источник

Кластерный анализ и дилемма биологического пользователя

Кластерный анализ стал важной частью жизни биологического сообщества. Рисунок в полном размере.

иллюстрация NEYRYS

Автор
Редакторы

Статья на конкурс «Био/Мол/Текст»: Приступая к рассмотрению чего-то нового, человек прежде всего стремится разложить это на группы. Так устроен наш мозг и так он осваивается с тем, что ему преподносит жизнь. То же — в науке: видя удивительное разнообразие вокруг себя в очередной области исследований, ученые прежде всего создавали описывающую его классификацию. Классическим примером служит система живого, представленная в виде иерархии вложенных друг в друга таксонов различного ранга: домен, царство, класс или отдел и т.д., вплоть до вида и даже более дробных групп. Ее очень удобно изображать в форме так полюбившихся биологам эволюционных деревьев. Исходно подобная система была предложена биологами-натуралистами, «классиками» систематики еще в XVIII–XIX вв. Исторический прогресс — это еще и прогресс научный: за последние десятилетия объекты и методы исследований изменились очень сильно. Сильно изменилось и само научное знание, и его методы. Извечная задача систематизации и группировки остается актуальной — только применять ее приходится к данным в новом формате. и, порой, чрезвычайно большим. Чтобы не захлебнуться в информационном потоке, очень важно освоить новые методы для работы с данными. Здесь в качестве важного, но непростого примера мы рассмотрим кластерный анализ.

Биология кластер что изучает. 50fa69f0f5b68775bfc4474c06e004ac. Биология кластер что изучает фото. Биология кластер что изучает-50fa69f0f5b68775bfc4474c06e004ac. картинка Биология кластер что изучает. картинка 50fa69f0f5b68775bfc4474c06e004ac.

Конкурс «Био/Мол/Текст»-2020/2021

Эта работа опубликована в номинации «Свободная тема» конкурса «Био/Мол/Текст»-2020/2021.

Генеральный партнер конкурса — ежегодная биотехнологическая конференция BiotechClub, организованная международной инновационной биотехнологической компанией BIOCAD.

Биология кластер что изучает. 88c0d80d2d38b4e9c0ce6c2d7bf60488. Биология кластер что изучает фото. Биология кластер что изучает-88c0d80d2d38b4e9c0ce6c2d7bf60488. картинка Биология кластер что изучает. картинка 88c0d80d2d38b4e9c0ce6c2d7bf60488.

Спонсор конкурса — компания SkyGen: передовой дистрибьютор продукции для life science на российском рынке.

Спонсор конкурса — компания «Диаэм»: крупнейший поставщик оборудования, реагентов и расходных материалов для биологических исследований и производств.

Век информации

В ХХI веке и на работе, и в быту нас окружают все бóльшие и все более сложно устроенные данные. Причина — развитие новых технологий получения и хранения информации, включая цифровые изображения, социальные сети и интернет. Такого рода данные принято обозначать как Большие (big data) — ответственность за них взяла на себя самобытная наука о данных (data science), которая создает новые методы анализа и визуализации. Отметим — удивительно сблизившиеся в этом случае! Закономерно: ведь обработка подобной информации привычными статистическими инструментами затруднена или даже невозможна (рис. 1).

Биология кластер что изучает. 2856 01.manhettenskij grafik. Биология кластер что изучает фото. Биология кластер что изучает-2856 01.manhettenskij grafik. картинка Биология кластер что изучает. картинка 2856 01.manhettenskij grafik.

Рисунок 1. Манхэттенский график — результат GWAS. Пример больших и геномных данных — полногеномный поиск ассоциаций (англ. genome-wide association studies, GWAS). Иллюстрирующие GWAS так называемые манхэттенские графики сейчас пестрят на страницах биомедицинских изданий. На них по оси X отмечают положение однонуклеотидных полиморфизмов SNP (располагая их от «начала» первой хромосомы и до конца 22-й — половые не в счет), а по оси Y — уровень ассоциации данного SNP и некоторого фенотипа. Пики на таком графике указывают на целевые хромосомные координаты. Несмотря на информативность, от обилия точек пестрит в глазах — а ведь за каждой из них стоит увесистая статистика и множество испытуемых.

Ко всему прочему, данные могут оказаться не только непомерно объемными (скажем, очень «высокие» таблицы с тысячами наблюдений), но и многомерными — то есть содержать информацию сразу о множестве признаков описываемых объектов. Признаки, в свою очередь, грозят оказаться разнородными — качественными, количественными, с пропущенными значениями. И если мы хотим для наглядности изобразить наши данные, то три показателя некоторого наблюдения придется сопоставить точке в трехмерном пространстве. N параметров приведут нас уже в N-мерное пространство. N при этом, по своему обыкновению, стремится к бесконечности, а логика и способность ориентироваться, присущие трехмерному человеку, стремительно теряют смысл.

Простой пример — неожиданное поведение объемов тел в таком гиперпространстве. В трехмерии объем «нормального» шара (N = 3), вписанного в такой же трехмерный куб, отличается от объема куба примерно в два раза — это нам представить нетрудно. Однако при N = 10 разница объемов соответствующих многомерных тел составляет уже 400 раз, а при N = 32 — невероятные 10 15 раз [1], [2]!

Однако вернемся из гиперпространства в рабочие будни. Как изменилась информация, которую используют ученые, в частности, в естественных науках? Примеров стремительно «раздавшихся» в своих размерах и размерности данных в науке можно привести множество. Самые примечательные — это, пожалуй, спутниковые снимки («виновники» огромного прогресса в географии и других науках о Земле), а также данные высокопроизводительного секвенирования нуклеиновых кислот (next generation sequencing, NGS) [3], которые на слуху у каждого современного биолога.

В «сухом» остатке

Методы получения последовательностей ДНК (особенно новые, по-настоящему эффективные NGS) преобразили современные науки о живом и сделали возможным новый «обзорный» подход к исследованию геномов — геномику. Напомним, что объектами исследования геномики являются целые геномы, рассматриваемые в различных аспектах (структурном, функциональном, эволюционном. ) Иными словами, геномика, в отличие от рассматривающей индивидуальные гены генетики, исследует сразу всю их взаимодействующую совокупность.

За геномикой следом возникли младшие сестры «омискного семейства» — протеомика, метаболомика, липидомика, гликомика и другие [4]. Каждая из этих научных отраслей ставит своей целью описать сразу все молекулы некоторого определенного сорта — белки, малые молекулы-метаболиты, липиды и прочие жиры, а также углеводы, соответственно [4]. Подход омик — обобщающий и системный — обращается к очень обширным данным о множестве объектов, рассматривая также связи между ними. Оказались необходимы методы обработки Больших данных (big data), которые к тому времени подоспевали из других наук.

Обратимся теперь к самому насущному в постгеномную эру [5] примеру больших и при этом биологических данных. Нетрудно догадаться, что речь идет о сиквенсах (англ. sequence) — последовательностях ДНК, РНК и белков. С точки зрения анализа данных и информатики это объекты типа «строка» (англ. string). Строки — это некоторая последовательность букв из заданной совокупности, называемой алфавитом. Информатика и примкнувшая к ней биоинформатика создали обширный инструментарий для объектов такого типа. В итоге мы можем:

Некоторые биоинформатические алгоритмы были разобраны в статье «12 методов в картинках: “сухая” биология» [7].

В случае биострок мы имеем последовательности «биологических букв» — по 4 для двух нуклеиновых кислот (ДНК и РНК) с лишь одной различающейся (T и U, соответственно) и тремя общими (A, C, G) в их словарях. В случае белков «алфавит» насчитывает двадцать букв-аминокислот (с неизбежной оговоркой «иногда чуть больше» [8]). Секвенирование белков — реализованная задача, которая, однако, остается экзотикой. А вот в случае нуклеиновых кислот (прежде всего ДНК) результаты получены поистине прорывные! Благодаря NGS за пару десятилетий скорость получения нуклеотидных последовательностей возросла на многие порядки, в то время как стоимость пропорционально уменьшилась [9].

К сожалению, на фоне такого оглушительного успеха «мокрой» биологии возникают затруднения «сухого», то есть биоинформатического характера. Проблема особенно актуальна в случае новых геномов и метагеномов (своеобразных «несортированных геномных отвалов»). Речь идет прежде всего об аннотировании ДНК — поиске участков различного типа (кодирующих, регуляторных, повторов [10] и др.) и их привязке к определенным хромосомным координатам. Незаменимую помощь биологам в этом оказывают как раз методы машинного обучения (machine learning).

Роботы тоже учатся

Машинное обучение представляет собой автоматическую обработку данных: методы сближают его с областью математической статистики. Той самой областью, которая нередко скорее пугает, нежели привлекает биологов, и которая населена медианами, Стьюдентом с его t-критерием, пестрящими интегралами распределениями и ящиками с усами. От других инструментов статистики и анализа данных машинное обучение отличает то, что оно рассматривает некоторую проблему не напрямую, а в ходе обучения — при решении множества сходных задач. Соответствующий англоязычный термин — machine learning, или, общеупотребительно кратко, ML. Идея в основе машинного обучения отнюдь не нова: та же линейная регрессия, призванная предсказать простую зависимость одной переменной от другой или других, формально представляет собой ML. Данный пример, безусловно, примитивный: регрессия — это очень древний (хотя и ходовой) представитель разнообразия machine learning.

В целом динамичное и развивающееся вполне эволюционно разнообразие методов и алгоритмов ML естественно сравнивать с биоразнообразием — продуктом эволюции в полном и прямом смысле. Если задаться такой систематикой in silico, то прежде всего стоит выделить следующие группы машинного обучения:

Теперь обратимся к более дробной систематике — основным разновидностям собственно кластерного анализа. Две наиболее очевидные группы — это плоские и иерархические методы. Кластерный анализ — вещь, которая понятнее всего на практике. Его стоит «покрутить в руках» для настоящей наглядности. Поэтому мы рассмотрим работу ключевых алгоритмов на одних данных (простых и, в то же время, биологических). Используем для этого очень подходящий для всяческого анализа биологических данных язык R.

Несколько похвальных слов самому R. Если вы биолог, психолог или географ и имеете дело со значительными объемами информации, которую требуется статистически обработать (в особенности — применить машинное обучение) и после эффектно визуализировать плоды своего труда — R станет для вас настоящей находкой.

Среди прилагающихся к R наборов данных есть датасет «хищные» (carnivora). Из него мы возьмем данные о 43 хищных представителях семи семейств — а именно такие их характеристики, как:

Здесь стоит предостеречь читателя. Кластерный анализ этого небольшого набора показателей морфологии и воспроизводства не следует считать анализом их эволюционного родства. В этой связи систематику живого он в большинстве случае не воспроизводит. Зато позволяет выделить осмысленные группировки, основанные на габаритах тела и образе жизни. Если мы захотим увидеть привычные биологу филогенетические деревья (дендрограммы, служащие отражением эволюционного прошлого и таксономического настоящего данных видов), то нам следует прибегнуть к молекулярной филогенетике [14]. Это важнейший инструмент современной биоинформатики и биологии в целом. Мы уже упоминали текстовые расстояния — как с их помощью измерять степень родства последовательностей ДНК. Так вот, задача реконструкции эволюционного процесса сводится к оценке родства на основе одной из моделей молекулярной эволюции и последующем построении опять-таки иерархической кластеризации. Прекрасный пример того, как кластеризация невзначай вросла в биологический инструментарий.

Вернемся же к нашему «несистематическому» группированию хищников.

Для начала вооружимся плоскими алгоритмами кластеризации (также вероятностные, англ. partitional). Такие подходы и попроще, и побыстрее в расчетах. Их задача — разложить имеющиеся наблюдения по заданному нами количеству кластеров. Происходит такой анализ «одним махом» — за один шаг, однако шаг этот можно повторять много раз для улучшения получаемого результата. Итак, начнем с алгоритма k-средних (k-means) как прародителя и самого ходового представителя плоских алгоритмов. Задача k-means — распределить все предложенные объекты на k кластеров, причем бремя определения k ложится на нас самих [13], [15].

Предварительно нормируем данные, чтобы сотни граммов, в которых изменяется масса мозга, не заглушили собой считанные единицы потомства. Сам анализ проведем на всех восьми переменных, а для визуализации выберем в качестве осей пару делающих изображение наиболее наглядным (а именно массу мозга самки и продолжительность беременности). Зная наперед «верный ответ» — а именно что наши животные представляют семь семейств, — установим k = 7 и сравним результаты с этим корректным с позиций систематики разбиением (рис. 2).

Биология кластер что изучает. 2856 02.carnivora. Биология кластер что изучает фото. Биология кластер что изучает-2856 02.carnivora. картинка Биология кластер что изучает. картинка 2856 02.carnivora.

Рисунок 2. Данные carnivora: результаты кластерного анализа k-средних для семи кластеров (слева) и принадлежность рассмотренных животных к реальным семействам (справа). Цветами обозначены кластеры и семейства, соответственно.

В результате мы видим, что этот плоский алгоритм не очень-то хорошо воспроизводит систематические взаимоотношения животных. Но мы условились, что ждем от него другого — группировки главным образом по размерам. Действительно, кластеризация объединила в одном кластере крупных кошек (Panthera sp.) и таких крупных «некошачьих» хищников, как гиену (Crocuta crocuta), калана (Enhydra lutris) и даже умеренного по своим размерам медведя — черного американского (Ursus americanus). Представленное многочисленными видами и разношерстное семейство куньих ожидаемо оказалось разбитым на несколько кластеров, а, скажем, самый крупный бурый медведь (Ursus arctos) попал в собственный «одноместный» кластер.

k-средние и тесселяция Вороного

Пара слов о работе самогó алгоритма k-средних. Уже упоминалось, что отдельные разбиения наблюдений на k кластеров происходят в ходе повторяющихся циклов-итераций. Каждая из них включает два шага:

Этап 1 предполагает построение пространства Вороного (Voronoi space): разделение пространства, на котором «разложены» наши точки, на своеобразные «области влияния» — все расположенное внутри этих разбитых «водоразделами» участков ближе (то есть, по сути, имеет большее сходство) именно к этой точке, а не какой-либо другой. Задача построения пространства Вороного восходит еще к Рене Декарту и XVII веку. Однако своим современным пониманием, а также названием оно обязано российскому математику Георгию Вороному, активно исследовавшему его в начале ХХ века.

Получение диаграммы Вороного (синонимы: замещение Вороного, или тесселяция Вороного) имеет значение и как самостоятельный инструмент исследования. В биологии она подойдет для описания того, как формируются клеточные структуры и микроструктура костей; в экологии поможет при моделировании пространственной организации сообществ; в метеорологии — при изучении атмосферных осадков. Есть у этой кажущейся просто красивым орнаментом диаграммы и множество применений в точных и инженерных науках [16].

Посмотрим, как выглядит диаграмма Вороного для наших данных (рис. 3).

Биология кластер что изучает. 2856 03.diagramma Voronogo. Биология кластер что изучает фото. Биология кластер что изучает-2856 03.diagramma Voronogo. картинка Биология кластер что изучает. картинка 2856 03.diagramma Voronogo.

Рисунок 3. Диаграмма Вороного для датасета carnivora. Заметно некоторое сходство с результатом кластеризации k-средних изображенный в тех же координатах (рис. 2 слева). Однако в отличие от разложившей наблюдения на кластеры плоской кластеризации, «воронизация» разделила на «осколки» саму координатную плоскость. Семейства обозначены цветами: заметно, что в большинстве случаев они воссоединились — родственные виды расположены рядом.

Переключимся на иерархические алгоритмы кластеризации на примере метода Уорда (Ward). Статистики и математики (для которых кластеризация — это не только инструмент, но и объект исследования) также называют такие алгоритмы таксономиями, подчеркивая сходство с «деревьями жизни». Здесь развитие статистики и машинного обучения напрямую вдохновлялось таксономией органического мира — классической систематикой с иерархией таксонов, предложенной такими мэтрами биологии, как К. Линней и О. Декандоль в XVIII веке. Вдохновение — это хорошо, но возникает непростой момент, когда «таксономия» биологов соприкасается с «таксономией» из области машинного обучения. А «классификация» у биологов так похожа на «таксономию» у биологов, притом что ML их противопоставляет (первая — обучение с учителем, вторая — без. ). Что ж, остается учиться оперативно переключаться!

Иерархические методы предполагают не одно разбиение имеющихся наблюдений «с плеча», а целую иерархию последовательных разбиений. Их очень удобно изображать в виде дендрограмм (деревьев), из которых биологу чаще всего приходится иметь дело с эволюционными деревьями (дендрограммы, изображающие филогенез — то есть эволюцию). Иерархическая кластеризация в сравнении с плоской будет и попроще, и посложнее. Попроще потому, что не требует задавать число кластеров изначально. Более того, есть шанс обойтись без привлечения «сторонних» способов оценить заветное k — при взгляде на уже полученную дендрограмму мы можем его прикинуть. Посложнее придется компьютеру — ему потребуются большие вычислительные возможности для построения иерархической кластеризации в сравнении с плоской. Среди иерархических алгоритмов выделяют две группы. Более распространены так называемые агломеративные (agglomerative) алгоритмы, которые собирают иерархическое дерево «снизу вверх». Они начинают свою работу с «одноместных» кластеров с отдельными объектами. Дивизивные (divisive) подходы поступают наоборот, а именно «сверху вниз». Сначала они помещают все наблюдения в один кластер и далее последовательно разбивают его на всё более мелкие.

Итак, мы упомянули плоские и иерархические алгоритмы. Как соотносятся получаемые с их помощью разбиения и насколько трудоемко их получать? Ответим на этот вопрос, описав, как плоские и иерархические результаты могут быть преобразованы друг в друга. Вложенную иерархию разбиений второй группы можно собрать, сложив друг на друга «стопкой» множество разбиений первой группы (благо, они как раз плоские!). При этом таких группировок потребуется столько, сколько «развилок» в дендрограмме. И наоборот: если рассечь иерархическую кластерную структуру по горизонтали, то мы получим вполне себе плоскую кластеризацию.

На нашем «хищном» датасете мы применим агломеративный иерархический метод — метод Уорда (Ward) (рис. 4). Для получаемых с его помощью кластеров характерна компактность, «сжатость» — поскольку алгоритм стремится минимизировать их статистическую дисперсию [15].

Биология кластер что изучает. 2856 04.ierarhicheskaja klasterizacija. Биология кластер что изучает фото. Биология кластер что изучает-2856 04.ierarhicheskaja klasterizacija. картинка Биология кластер что изучает. картинка 2856 04.ierarhicheskaja klasterizacija.

Рисунок 4. Иерархическая кластеризация датасета carnivora. Семейства обозначены цветами. Важно подчеркнуть — дендрограмма перед нами не является эволюционным древом! Эволюционные деревья (кладограммы и филограммы) также строят с применением иерархической кластеризации, но уже на основе данных моделей молекулярной филогенетики.

Получившийся рисунок радует биологический глаз: на первый взгляд он очень похож на эволюционное дерево. Однако в его основе — расстояние по всего нескольким параметрам морфологии и образа жизни, а не применяемое обычно для построение настоящих филограмм текстовое расстояние между фрагментами ДНК. Так что перед нами — просто дендрограмма кластеризации отдельных признаков. Что, впрочем, на помешало ей вполне успешно объединить ряд родственных видов.

«Кластер — в глазах смотрящего»

Теперь разберемся с базовыми понятиями в области кластерного анализа. А также с тем, почему с ними не всегда все понятно. Итак, термин кластерный анализ объединяет в себе множество статистических методов. Их общая задача — выявление естественной группировки (либо группировок) для некоторой совокупности объектов. Основой названия этой совокупности методов послужило английское слово cluster, используемое не одну сотню лет. Его исходное «тривиальное» значение сохранилось в современном языке: в этом случае cluster означает «совокупность близко расположенных объектов или людей». Возможны следующие варианты его перевода на русский: «группа», «скопление», «гроздь», «пучок» и т.д. [17].

Что же означает термин «кластер» в контексте кластерного анализа? Удивительно, но формального и строгого определения этого центрального понятия не существует. По-видимому, так будет и дальше: принято считать, что термин «кластер» субъективен по своей природе и зависит не только от контекста конкретной задачи, но и от запросов и ожиданий пользователя. Что совсем уж субъективно. Особенных затруднений это не вызывает: значение термина интуитивно, а его практическое применение возможно и без строгого определения (как, например, в случае понятия «точка» в геометрии). Чаще всего кластер определяется своей компактностью (большим сходством входящих в него объектов) и изолированностью (непохожестью представителей разных кластеров). Степень сходства/различия определяется как расстояние между изображающими конкретные наблюдения точками в N-мерном пространстве, где оси соответствуют N отдельным признакам (то есть переменным).

Важно помнить, что неопределенность и необходимость действовать «по наитию» возникает едва ли не на каждом этапе кластеризации. Не помешает рассмотреть эти неопределенности, а заодно и сами шаги:

А теперь поподробнее:

Здесь же, при переходе матрицы расстояний к собственно распределению объектов по кластерам, нужно установить их надлежащее количество k. В дальнейшем это может значительно изменить результаты анализа. Что же мы можем предпринять в этой связи? Получив иерархическую кластеризацию (которая не требует исходно заданного k) и изобразив ее в виде дендрограммы, мы получаем возможность прикинуть, сколько кластеров выделить будет более естественно. Есть и более формальные способы — среди них наиболее распространен «метод локтя» (elbow rule). На соответствующем графике по оси X откладывают рассматриваемое число кластеров, по оси Y — своеобразный «показатель их качества». Перегиб этого графика — локоть — позволяет оценить заветное k.

После того, как мы прошли по стандартному алгоритму шаг за шагом, хотелось бы отметить приятное обстоятельство, отличающее подобные биоинформатические протоколы от «мокробиологических». Почти на каждом этапе у нас есть возможность «откатиться» назад и изменить его в соответствии с полученным опытом. Мы можем неограниченно большое число раз переиграть вычислительный эксперимент или изменить параметры только что проделанного расчета [1], [15].

Но заканчивать разговор о «кластерной кухне» все же приходится довольно удручающими обобщениями. Размытость и неопределенность неразлучны с этой казалось бы точной математической методологией. Она много шире проблем с терминологией (как его собственной, так и упомянутых выше «перекрывающихся» с биологией понятий). Действительно, изобилие доступных методик, плохо предсказуемое качество результатов, затруднения при выборе используемых признаков объектов, различия в форме кластеров, населяющих данные, окаянный вопрос «а они вообще есть в моих данных. »

Все эти трудности ставят пользователя перед так называемой дилеммой пользователя (user’s dilemma) [1], [15]. Из нее, в частности, следует: мы не можем наперед предугадать, какой метод кластерного анализа или способ отложить расстояние окажется лучше прочих — результат может очень сильно варьировать (рис. 5). Тот же вывод, в общем, следует и из наших упражнений с кластеризацией данных о хищниках. Различные методики дают различающиеся результаты, которые слабо напоминают строгое систематическое родство. В то же время все разбиения могут оказаться целесообразными для решения той или иной задачи.

Биология кластер что изучает. 2856 05.vybor metoda klasterizacii. Биология кластер что изучает фото. Биология кластер что изучает-2856 05.vybor metoda klasterizacii. картинка Биология кластер что изучает. картинка 2856 05.vybor metoda klasterizacii.

Рисунок 5. Выбор метода кластеризации и сравнения их результатов — не имеющие простого решения задачи. Это подтверждают сильно различающиеся результаты кластеризации. Строки соответствуют наборам данных с различной структурой, столбцы — определенным алгоритмам. Цветами показаны предложенные ими разбиения. Читатель, от природы обладающий превосходной способностью кластеризовать двухмерное пространство, может сравнить их с очевидным для себя разделением точек.

Добивает исчезающую надежду на точную математическую методику, которая «все сама знает и сделает», так называемая теорема невозможности кластеризации Клейнберга (Kleinberg). Ее суть сводится к тому, что идеальных алгоритмов кластеризации не бывает. Клейнберг предложил три желательных свойства, которые неплохо бы иметь алгоритму кластеризации (масштабная инвариантность, согласованность и полнота) и обосновал, что проявляющий все три кластерные «благодетели» на одном датасете алгоритм невозможен [15].

Вместе навсегда

Теперь обратимся к краткой истории кластерного анализа, питая особое пристрастие к его биологическим применениям. Повторимся: бестиарий методов и алгоритмов машинного обучения вообще и кластеризации в частности сам по себе напоминает очередное царство живого. Это in silico «биоразнообразие» стало результатом продолжительного и интенсивного «эволюционного» развития методов ML — и мутировать такие алгоритмы и методы умеют, и приобретать новые прорывные черты в ходе «ароморфозов», и демонстрировать параллельные эволюционные тренды, и даже скрещиваться.

Разные историки науки называют авторами первых методов кластеризации разных исследователей. По-видимому, первой значимой персоналией в этой области стал врач Джон Сноу, один из основоположников анестезиологии и эпидемиологии. Выходит, также и пионер кластерного анализа! Именно вторая медицинская специальность натолкнула доктора Сноу на использование приема, напоминающего кластеризацию. Точнее будет обозначить его как подобие диаграммы Вороного — задачи, ставшей промежуточным шагом одного из самых «ходовых» методов кластеризации (k-средних).

Холера, Сноу!

Во время эпидемии холеры в Лондоне в 1854 г. Сноу в поиске закономерностей распространения этого заболевания в части Лондона, называемой Сохо, начертил соответствующую карту. Он обозначил на ней места проживания заболевших, а также используемые жителями источники воды. Надо сказать, что в то время причиной холеры считали миазмы — потоки зараженного «дурного» воздуха, якобы распространяющегося над городом. Построив свою карту-схему, Сноу заметил: случаи заболевания приурочены к определенным источникам воды и образуют возле них сгущения с общим центром — «кластеры». Врач сделал вывод: холера распространяется с зараженной питьевой водой. Он оказался прав, обеспечив своим открытием колоссальный прогресс в предотвращении этой опасной инфекции (рис. 6).

Биология кластер что изучает. 2856 06.karta Dzhona Snou. Биология кластер что изучает фото. Биология кластер что изучает-2856 06.karta Dzhona Snou. картинка Биология кластер что изучает. картинка 2856 06.karta Dzhona Snou.

Рисунок 6. Карта района Лондона, на которой Джон Сноу обозначил случаи холеры и источники питьевой воды

Следующий важный этап кластерного анализа связан с именем польского антрополога Яна Чекановского. В начале 1910-х ученый создал концепцию структурной классификации и сформулировал центральную для кластеризации идею — объединение сходных объектов в однородные компактные группы. Ученый также разработал метод графического представления кластеров, названный диаграммой Чекановского. Как выглядел этот анализ? В матрице приводят числа, описывающие все рассматриваемые наблюдения. Чаще всего отдельному объекту-наблюдению отводят строку, в то время как параметры (переменные) соответствуют столбцам. Каждой группе сходных наблюдений (об их сходстве судят по тому, насколько они скоррелированы) ставится в соответствие некоторый символ или определенная интенсивность штриховки. Далее матрица «пересобирается» таким образом, чтобы схожие наблюдения расположились непосредственно друг за другом (рис. 7а).

Очередная веха истории кластерного анализа обычно не упоминается в западных обзорах. В случае литературы на русском языке ей иногда отводят роль первой методики кластерного анализа. Речь идет о трудах советского гидробиолога П.В. Терентьева, который в 1925 году предложил анализировать признаки объектов (не сами объекты!) с помощью метода корреляционных плеяд. Исследователь применял его для анализа сообществ (биоценозов). Метод Терентьева, подобно методу Чекановского, начинается с получения коэффициентов корреляции для исходной матрицы наблюдений (рис. 7б). Далее следует графическое представление — каждый объект изображают в виде кружка, которые соединяют линиями в случае высокой корреляции. Толщина этой линии отображает значение коэффициента (стало быть, и схожесть наблюдений).

Биология кластер что изучает. 2856 07.zhivye iskopaemye. Биология кластер что изучает фото. Биология кластер что изучает-2856 07.zhivye iskopaemye. картинка Биология кластер что изучает. картинка 2856 07.zhivye iskopaemye.

Рисунок 7. «Живые ископаемые» — прародители методов кластерного анализа. а — Диаграмма Чекановского. б — Метод корреляционных плеяд Терентьева.

После такую «корреляционную плеяду» начинают разделять, «разрезая» все линии со значением коэффициента меньше выбранного. Два описанных метода-прародителя (Чекановского и Терентьева), как мы видим, основаны скорее на графических представлениях, чем сложных вычислениях. Позднее их идеи послужили основой для прочих основанных на графах методиках кластеризации. Однако «ушедшими в историю» их назвать нельзя — скорее это «живые ископаемые». Они по-прежнему используются в ряде научных отраслей.

Следующий эпизод истории — это момент, когда кластерный анализ «уж точно возник», то есть был предложен в современном понимании. В этом строгом смысле создателями кластеризации (особенно в западной традиции) называют Драйвера и Кребера (H.E. Driver и A.L. Kroeber). Область интересов этих ученых относится к гуманитарной антропологии (не путать с физическими антропологами — по большей части отечественными — в ведении которых находятся антропогенез, расоведение и прочие черепа). Первое упоминание концепции Драйвера и Кребера приходится на 1932 год и их работу «Количественное выражение культурных взаимосвязей». Книга посвящена этнологии и рассматривает различия между разными культурами, включая первобытные.

В 1938 и 1939 годах кластеризацию применили в психологии, соответственно, Зубин и Трион. Метод им отлично подошел, особенно при исследовании психологических различий между отдельными людьми — в психологии личности. И с этого момента начался продолжающийся в наши дни сериал «Кластеры и психологи». Он имел со своим биологическим аналогом довольно мало пересечений — и во многом такое положение вещей сохранилось. В чем же состоял новый подход? По сути, Зубин продолжил движение в намеченном его предшественниками направлении и разработал очередной способ сортировать матрицы коэффициентов корреляции. Он и его коллеги хотели обойти недостатки широко используемого в среде психологов факторного анализа — либо модифицируя его, либо разработав простую и эффективную альтернативу. В 1939 году в своей монографии Трион категорично обозначил это следующим образом: «Кластерный анализ — это факторный анализ для бедных». Его книга стала первым крупным научным трудом, посвященным непосредственно кластерному анализу и вынесшему само понятие в заглавие.

Вскоре кластеризацию принял на вооружение известный психолог, создатель теории черт Р.Б. Кеттелл. За кластерный анализ Кеттелл взялся очень основательно: он обсуждает четыре разных метода кластеризации, некоторые — подозрительно напоминающие предшествующие работы. Возможное объяснение — банальное незнание о статьях, опубликованных в совершенно другой области знаний. Довольно странно, что даже пристальное внимание такого мэтра психологии как Кеттелл не привлекло к кластерному анализу особого внимания. Действительно, следующее десятилетие (1950-е) связано с падением интереса к кластеризации. В это время примечательно разве что возникновение первого иерархического алгоритма. Зато сразу после последовал расцвет 1960-х годов. Причины такого подъема — создание компьютеров и развитие первых алгоритмов нейронных сетей. Резко возросло число энтузиастов кластеризации — полушутя говорили, что оно может превысить число алгоритмов.

Наибольший энтузиазм в 1960-е гг. методы кластеризации вызвали у специалистов в области ботаники, экологии и общей биологии (в частности, занятых анализом сообществ) и, в меньшей степени, у социологов. Однако решающую роль в «кластерном буме 1960-х» сыграла монография «Начала численной таксономии» Р. Сокэла и П. Снита [18]. Благодаря этой книге кластерный анализ стал известен очень широкому кругу ученых — и они не замедлили вооружиться новым для себя инструментом. В этой и последующих работах авторы (энтомолог и микробиолог) сформулировали новый подход к биологической систематике, названный ими численной таксономией. Нет сомнений, что их наследие повлияло на развитие и биологии как науки в целом. Итак, Сокэл и Снит предложили применять кластерный анализ для учета множества признаков, которые должны описывать организм как можно более полно, характеризуя его морфологию, биохимию, образ жизни и т.д. Это позволяет оценивать степень их эволюционной близости и помещать организмы с высоким сходством в общие систематические группы. Минималистичный пример анализа в русле численной таксономии мы уже проделали — когда строили иерархическую кластеризацию по признакам хищников. Безусловно, до настоящей этот учебный пример не дотягивает из-за немногочисленных и однородных признаков.

Биологическая филогения на современный лад

Напомним, что построение современных филогенетических деревьев на основании последовательностей ДНК в те времена было невозможно — еще не настала эпоха сиквенсов и работ Карла Вёзе [19]. Однако вечные биологические вопросы — о соотношениях родственных групп, границах непростого понятия «вид» — решать было необходимо. Причем решать возможно более объективно, точно и воспроизводимо, избегая личных пристрастий и просто ошибок. По мысли «численных таксономистов», собрав как можно более полные и «осязаемые», а лучше доступные прямому замеру признаки, мы неплохо характеризуем систематическую группу. После этого рассчитаем степень близости и построим кластерную структуру, которая призвана отобразить закономерности эволюции. Главная цель общая с молекулярной филогенетикой — реконструировать эволюционный процесс (рис. 8).

Биология кластер что изучает. 2856 08.evoljucija otrjada hischnyh. Биология кластер что изучает фото. Биология кластер что изучает-2856 08.evoljucija otrjada hischnyh. картинка Биология кластер что изучает. картинка 2856 08.evoljucija otrjada hischnyh.

Рисунок 8. Филограмма, отражающая эволюцию семейств отряда хищных. Указаны оценки времени расхождения таксонов. Построение эволюционных древ «под капотом» такжe имеет кластерную иерархизацию — данная методика тайком вросла в биологический инструментарий. Обратите внимание на соответствующее биологической систематике расположение эволюционных ветвей и на различия с нашим анализом признаков. Эти различия иллюстрируют: методики сильно различаются, и не слишком предсказуемо. Поэтому пользователю неоценимую помощь окажут экспертные знания, а также пробы, ошибки и новые пробы.

Весомым вкладом Сокэла и Снита стало понятие OTU (operational taxonomic unit, «операционная таксономическая единица»). Его применяют для описания некоторой группы организмов, для которых предполагается родство, притом, что говорить о них, как о едином таксоне полных оснований нет. Скажем так: OTU это рассматриваемый в ходе кластерного анализа предполагаемый таксон. Сейчас под OTU понимают прежде всего mOTU — молекулярную операционную таксономическую единицу, которая строится на основании близости участков ДНК. Однако наибольшее влияние работы биологов оказали за счет своего эффекта на мировое «кластерное сообщество» — благодаря численной таксономии кластерный анализ стал по-настоящему широко известен. Сами того не ведая, пример элементарной численной таксономии мы рассмотрели на «хищном» датасете — когда строили иерархическую дендрограмму.

К концу 1960-х на смену «кластерному буму» закономерно стал приходить «кластерный упадок». Не слишком осмысленное изобилие методов и алгоритмов и вал сомнительных работ вызывали критические замечания. В этой связи научное сообщество поставило задачу сформулировать критерии оценки и сравнения разных алгоритмов. К 1970-м критика усиливается вплоть до предложений прекратить разработку новых процедур кластеризации и относиться со скептицизмом к ее результатам. Ученых охватил «кластерный пессимизм» и поиски путей целесообразного, разумного применения кластеризации. Последующие же десятилетия стали временем ровного и спокойного развития этой научной отрасли [17], [20].

Работа для кластеров

Напоследок хотелось бы бегло описать, как разнообразная, строгая, математическая и при этом неожиданно субъективная группа методов — кластерный анализ — способна помочь в работе ученого в ХХI веке. Кластеризация поможет установить внутреннюю структуру данных, выделить нетривиальные новые «подводные течения» в них и отметить аномалии — необычные, выпадающие из общего числе наблюдения [18].

Однако как быть со всеми проблемами, затруднениями и неопределенностями, неразлучными с кластерным анализом и вместе обозначенными как «дилемма пользователя»? Вряд ли их стоит считать основанием отказываться от этого наглядного и эффективного способа выявить структуру ваших многомерных и больших данных. Особенно биологу — которому к капризной и изменчивой логике не приходится привыкать. Более того, неопределенности и необходимость выбирать — алгоритм кластеризации, способ отложить расстояние между объектами, число кластеров. — это простор применить ваши экспертные знания и профессиональное чутье. К тому же неопределенность протокола кластерного анализа не мешает ему оставаться точной вычислительной методикой. И, что очень важно, методикой воспроизводимой. Это означает, что, имея ваш скрипт или иной «сухой» экспериментальный протокол, коллеги и читатели смогут без труда воспроизвести, проверить и изменить его. И эти положительные стороны вместе можно обозначить как мотивирующий «кластерный оптимизм».

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *