вероятности. При добавлении решающего правила она превращается в алгоритм классификации.
Описанные в этой главе деревья решений и ансамблевые методы можно использовать для решения задач регрессии. Так что, если выходной параметр вашего набора данных является числом, попробуйте их применить.
Число e в уравнении – математическая константа вроде π, которая применяется далеко не только в логистической регрессии. Это так называемая постоянная Эйлера, приблизительно равная 2,71828.
Чтобы по-настоящему понять эту формулу, необходимо познакомиться с концепцией логарифма отношения шансов, рассмотрение которой выходит за рамки данной книги.
Существует несколько алгоритмов для создания деревьев решений, но наиболее популярный из них – CART (Classification and Regression Trees, деревья классификации и регрессии). Подробную информацию о нем можно найти в работе Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.
Мы создали это дерево и его визуализацию с помощью (бесплатной) статистической программы R с открытым исходным кодом и пакетов «rpart» и «rpart.plot». Не все деревья решений, с которыми вы столкнетесь, будут иметь подобный уровень детализации.
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.
Построение моделей на основе случайных выборок данных называется «бэггингом». Случайные леса – один из вариантов применения данного метода.
Дополнительную информацию о градиентном усилении (бустинге) можно найти в главе 10 книги Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, No. 10). New York: Springer series in statistics, и в указанных там источниках. Однако имейте в виду, что это довольно сложный текст.
Хороший обзор можно найти в статье “Ideas on interpreting machine learning” на сайте www.oreilly.com/radar/ideas-on-interpreting-machine-learning. В настоящее время проводятся исследования, направленные на улучшение понимания работы этих методов.
Признана экстремисткой на территории РФ.
Цитата из поста.
Сгенерируйте собственные вдохновляющие цитаты на сайте inspirobot.me.
Отличное описание системы вопросов-ответов, используемой компьютером Watson, можно найти в книге: Siegel, E. (2013). Predictive analytics: The power to predict who will click, buy, lie, or die. John Wiley & Sons.
Текстовая аналитика также иногда называется текст-майнингом.
Облако слов создано с помощью сайта wordclouds.com.
Любимое блюдо Джордана – это хот-дог.
Более подробное описание модели Word2vec можно найти в главе 11 замечательной книги: Mitchell, M. (2019). Artificial intelligence: A guide for thinking humans. Penguin UK.
Да, здесь мы игнорируем множество пар слов, которые могут присутствовать даже в самых коротких статьях. Уже одно это должно дать вам представление о той вычислительной сложности, с которой пришлось столкнуться компании Google.
Говядина = (0,1, 1,0, 0,9), Корова = (1,0, 0,1, 1,0), Свинья = (1,0, 0,1, 0,0). Если произвести сложение и вычитание соответствующих элементов, то получится Говядина – Корова + Свинья = (0,1, 1,0–0,1), что довольно близко к значению слова Свинина = (0,1, 1,0, 0).
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
code.google.com/archive/p/word2vec.
Два популярных метода тематического моделирования – латентно-семантический анализ (ЛСА) и латентное размещение Дирихле (ЛРД).
Это изображение взято с сайта en.wikipedia.org/wiki/File: Topic_model_scheme.webm, создано Кристофом Карлом Кингом и распространяется по лицензии Creative Commons Attribution-Share Alike 4.0 International.
Одна из самых значимых статей в данной области – Drucker, H., Wu, D., & Vapnik, V. N. (1999). Support vector machines for spam categorization. IEEE Transactions on Neural networks, 10(5), 1048–1054.
Линейная регрессия не работает и в том случае, если в наборе данных содержится больше признаков, чем наблюдений. Тем не менее существуют разновидности линейной и логистической регрессии, позволяющие справиться с такой ситуацией.
Дополнительную информацию вы можете найти в статье https://ru.wikipedia.org/wiki/Байесовская_фильтрация_спама
Это называется поправкой Лапласа, которая помогает предотвратить высокую вариацию в небольших количествах значений, о которой мы говорили в главе 3.
Generative Pre-trained Transformer 3
https://www.forbes.com/sites/bernardmarr/2020/10/05/what-is-gpt-3-and-why-is-it-revolutionizing-artificial-intelligence/?sh=2f45a93b481a
Шолле Франсуа, «Глубокое обучение на Python» (Издательство: Питер, 2018).
Разумеется, продемонстрировать резкие и ожидаемые изменения в химии мозга можно не только с помощью такого экстремального примера, как выбегающий на дорогу олень. Дело в том, что ваш мозг обрабатывает входные и выходные данные прямо сейчас. Миллионы нейронов активируются в процессе чтения этих строк.
Нейронные сети можно использовать и для решения задач регрессии. Только при этом будет применяться другая функция активации, поскольку итоговое вычисление, по сути, будет сводиться к модели линейной регрессии.
Веса также называются коэффициентами. Для одних и тех же понятий существует несколько названий.
Для поклонников исчисления сообщаем, что обратное распространение ошибки, по сути, представляет собой цепное правило, предоставляющее инструменты для оптимизации вложенных уравнений, подобных тем, которые используются в нейронных сетях.
В случае линейной регрессии для параметров существует настоящий математический оптимум (то есть точка, в которой сумма квадратов является минимальной). К сожалению, при работе с нейронными сетями у нас часто нет никакого способа узнать, достигла ли наша нейронная сеть математического оптимума или просто «достаточно хорошего» результата.
Здесь мы должны сделать оговорку. Если функция активации не логистическая, то это утверждение неверно.
LeCun, Y., et al. (1989). Backpropagation applied to handwritten