logistic regression sklearn параметры

20.07.202219.07.2022 admin 0 Comments

Logistic Regression (aka logit, MaxEnt) classifier.

In the multiclass case, the training algorithm uses the one-vs-rest (OvR) scheme if the ‘multi_class’ option is set to ‘ovr’, and uses the cross-entropy loss if the ‘multi_class’ option is set to ‘multinomial’. (Currently the ‘multinomial’ option is supported only by the ‘lbfgs’, ‘sag’, ‘saga’ and ‘newton-cg’ solvers.)

This class implements regularized logistic regression using the ‘liblinear’ library, ‘newton-cg’, ‘sag’, ‘saga’ and ‘lbfgs’ solvers. Note that regularization is applied by default. It can handle both dense and sparse input. Use C-ordered arrays or CSR matrices containing 64-bit floats for optimal performance; any other input format will be converted (and copied).

The ‘newton-cg’, ‘sag’, and ‘lbfgs’ solvers support only L2 regularization with primal formulation, or no regularization. The ‘liblinear’ solver supports both L1 and L2 regularization, with a dual formulation only for the L2 penalty. The Elastic-Net regularization is only supported by the ‘saga’ solver.

Parameters penalty <‘l1’, ‘l2’, ‘elasticnet’, ‘none’>, default=’l2’

Used to specify the norm used in the penalization. The ‘newton-cg’, ‘sag’ and ‘lbfgs’ solvers support only l2 penalties. ‘elasticnet’ is only supported by the ‘saga’ solver. If ‘none’ (not supported by the liblinear solver), no regularization is applied.

New in version 0.19: l1 penalty with SAGA solver (allowing ‘multinomial’ + L1)

Dual or primal formulation. Dual formulation is only implemented for l2 penalty with liblinear solver. Prefer dual=False when n_samples > n_features.

tol float, default=1e-4

Tolerance for stopping criteria.

C float, default=1.0

Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization.

fit_intercept bool, default=True

Specifies if a constant (a.k.a. bias or intercept) should be added to the decision function.

intercept_scaling float, default=1

Note! the synthetic feature weight is subject to l1/l2 regularization as all other features. To lessen the effect of regularization on synthetic feature weight (and therefore on the intercept) intercept_scaling has to be increased.

class_weight dict or ‘balanced’, default=None

Weights associated with classes in the form . If not given, all classes are supposed to have weight one.

Note that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified.

New in version 0.17: class_weight=’balanced’

Used when solver == ‘sag’, ‘saga’ or ‘liblinear’ to shuffle the data. See Glossary for details.

Algorithm to use in the optimization problem.

For small datasets, ‘liblinear’ is a good choice, whereas ‘sag’ and ‘saga’ are faster for large ones.

For multiclass problems, only ‘newton-cg’, ‘sag’, ‘saga’ and ‘lbfgs’ handle multinomial loss; ‘liblinear’ is limited to one-versus-rest schemes.

‘newton-cg’, ‘lbfgs’, ‘sag’ and ‘saga’ handle L2 or no penalty

‘liblinear’ and ‘saga’ also handle L1 penalty

‘saga’ also supports ‘elasticnet’ penalty

‘liblinear’ does not support setting penalty=’none’

Note that ‘sag’ and ‘saga’ fast convergence is only guaranteed on features with approximately the same scale. You can preprocess the data with a scaler from sklearn.preprocessing.

New in version 0.17: Stochastic Average Gradient descent solver.

New in version 0.19: SAGA solver.

Changed in version 0.22: The default solver changed from ‘liblinear’ to ‘lbfgs’ in 0.22.

Maximum number of iterations taken for the solvers to converge.

multi_class <‘auto’, ‘ovr’, ‘multinomial’>, default=’auto’

If the option chosen is ‘ovr’, then a binary problem is fit for each label. For ‘multinomial’ the loss minimised is the multinomial loss fit across the entire probability distribution, even when the data is binary. ‘multinomial’ is unavailable when solver=’liblinear’. ‘auto’ selects ‘ovr’ if the data is binary, or if solver=’liblinear’, and otherwise selects ‘multinomial’.

New in version 0.18: Stochastic Average Gradient descent solver for ‘multinomial’ case.

Changed in version 0.22: Default changed from ‘ovr’ to ‘auto’ in 0.22.

For the liblinear and lbfgs solvers set verbose to any positive number for verbosity.

warm_start bool, default=False

New in version 0.17: warm_start to support lbfgs, newton-cg, sag, saga solvers.

l1_ratio float, default=None

Attributes classes_ ndarray of shape (n_classes, )

A list of class labels known to the classifier.

coef_ ndarray of shape (1, n_features) or (n_classes, n_features)

Coefficient of the features in the decision function.

intercept_ ndarray of shape (1,) or (n_classes,)

Intercept (a.k.a. bias) added to the decision function.

n_iter_ ndarray of shape (n_classes,) or (1, )

Actual number of iterations for all classes. If binary or multinomial, it returns only 1 element. For liblinear solver, only the maximum number of iteration across all classes is given.

Incrementally trained logistic regression (when given the parameter loss=»log» ).

Logistic regression with built-in cross validation.

The underlying C implementation uses a random number generator to select features when fitting the model. It is thus not uncommon, to have slightly different results for the same input data. If that happens, try with a smaller tol parameter.

Predict output may not match that of standalone liblinear in certain cases. See differences from liblinear in the narrative documentation.

L-BFGS-B – Software for Large-scale Bound-constrained Optimization

Ciyou Zhu, Richard Byrd, Jorge Nocedal and Jose Luis Morales. http://users.iems.northwestern.edu/

LIBLINEAR – A Library for Large Linear Classification

SAG – Mark Schmidt, Nicolas Le Roux, and Francis Bach

Minimizing Finite Sums with the Stochastic Average Gradient https://hal.inria.fr/hal-00860051/document

SAGA – Defazio, A., Bach F. & Lacoste-Julien S. (2014).

SAGA: A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives https://arxiv.org/abs/1407.0202

Hsiang-Fu Yu, Fang-Lan Huang, Chih-Jen Lin (2011). Dual coordinate descent

Источник

Логистическая регрессия с использованием Python (scikit-learn)

Дата публикации Sep 13, 2017

Одна из самых удивительных вещей в библиотеке Python scikit-learn состоит в том, что она имеет четырехступенчатый шаблон моделирования, который облегчает программирование классификатора машинного обучения. Хотя в этом руководстве используется классификатор, называемый логистической регрессией, процесс кодирования в этом руководстве применяется к другим классификаторам в sklearn (дерево решений, K-ближайшие соседи и т. Д.). В этом уроке мы используем логистическую регрессию для прогнозирования цифровых меток на основе изображений. На изображении выше показана группа обучающих цифр (наблюдений) из набора данных MNIST, принадлежность которого к категории известна (метки 0–9). После тренировки модели с логистической регрессией ее можно использовать для прогнозирования метки изображения (метки 0–9) по данному изображению.

Логистическая регрессия с использованием Python Video

Первая часть этого учебного поста посвящена набору игрушечных данных (набор данных цифр), чтобы показать, как быстро проиллюстрировать четырехшаговый образец моделирования scikit-learn и показать поведение алгоритма логистической регрессии. Вторая часть руководства посвящена более реалистичному набору данных (набор данных MNIST), чтобы кратко показать, как изменение параметров модели по умолчанию может повлиять на производительность (как по времени, так и по точности модели).
С этим, давайте начнем. Если вы заблудились, я рекомендую открытьвидеовыше в отдельной вкладке. Код, используемый в этом руководстве, доступен ниже.

Начало работы (предварительные условия)

Если у вас уже установлена anaconda, перейдите к следующему разделу. Я рекомендую установить anaconda (Python 2 или 3 хорошо подойдет для этого урока), чтобы у вас не возникало проблем с импортом библиотек.

Вы можете скачать Anaconda с официального сайта и установить самостоятельно или следовать приведенным ниже инструкциям по установке Anaconda, чтобы настроить Anaconda в своей операционной системе.

Установите Anaconda в Windows:Ссылка

Установите Anaconda на Mac:Ссылка

Установите Anaconda в Ubuntu (Linux):Ссылка

Логистическая регрессия на наборе цифр

Загрузка данных (набор данных цифр)

Теперь, когда у вас есть загруженный набор данных, вы можете использовать команды ниже

чтобы увидеть, что в наборе данных есть 1797 изображений и 1797 меток

Отображение изображений и меток (набор данных цифр)

Этот раздел действительно просто для того, чтобы показать, как выглядят изображения и метки. Обычно это помогает визуализировать ваши данные, чтобы увидеть, с чем вы работаете.

Разделение данных на обучающие и тестовые наборы (набор данных цифр)

Мы производим обучающие и тестовые наборы, чтобы убедиться, что после обучения нашему алгоритму классификации он сможет хорошо обобщать новые данные.

4-ступенчатая модель моделирования Scikit-learn (набор данных цифр)

Шаг 1. Импортируйте модель, которую вы хотите использовать

В sklearn все модели машинного обучения реализованы в виде классов Python.

Шаг 2. Сделайте экземпляр модели

Шаг 3. Обучение модели на данных, хранение информации, полученной из данных

Модель изучает отношения между цифрами (x_train) и метками (y_train)

Шаг 4. Предсказать метки для новых данных (новые изображения)

Использует информацию, полученную моделью в процессе обучения модели.

Прогноз для нескольких наблюдений (изображений) одновременно

Делайте прогнозы на все данные испытаний

Измерение производительности модели (набор данных цифр)

Хотя есть и другие способы измерения производительности модели (точность, отзыв, оценка F1,РПЦ Криваяи т. д.), мы собираемся сохранить эту простоту и использовать точность в качестве нашей метрики.
Для этого рассмотрим, как модель работает на новых данных (набор тестов)

Точность определяется как:

(доля правильных прогнозов): правильные прогнозы / общее количество точек данных

Наша точность составила 95,3%.

Матрица путаницы (набор данных цифр)

Приведенная ниже таблица путаницы не является визуально суперинформативной или визуально привлекательной.

Метод 1 (Сиборн)

Как вы можете видеть ниже, этот метод создает более понятную и визуально читаемую матрицу путаницы с использованием Seaborn

Метод 2 (Матплотлиб)
Этот метод явно намного больше кода. Я просто хотел показать людям, как это сделать в matplotlib.

Логистическая регрессия (MNIST)

Важно подчеркнуть, что набор цифровых данных, содержащийся в sklearn, слишком мал, чтобы представлять реальную задачу машинного обучения.
Мы собираемся использовать набор данных MNIST, потому что он предназначен для людей, которые хотят попробовать методы обучения и методы распознавания образов на реальных данных, затрачивая при этом минимум усилий на предварительную обработку и форматирование. Одна из вещей, которые мы заметим, это то, что настройка параметров может значительно ускорить время обучения алгоритма машинного обучения.

Загрузка данных (MNIST)

Набор данных MNIST не приходит изнутри

Теперь, когда у вас есть загруженный набор данных, вы можете использовать команды ниже

чтобы увидеть, что в наборе данных есть 70000 изображений и 70000 меток

Разделение данных на обучающие и тестовые наборы (MNIST)

Отображение изображений и ярлыков (MNIST)

4-ступенчатая модель моделирования Scikit-learn (MNIST)

Одна вещь, которую я хотел бы упомянуть, это важность настройки параметров. Хотя это может не иметь большого значения для набора данных с меньшими цифрами, оно имеет большее значение для больших и более сложных наборов данных. Хотя обычно для большей точности настраиваются параметры, в приведенном ниже случае мы настраиваем решатель параметров для ускорения подгонки модели.

Шаг 1. Импортируйте модель, которую вы хотите использовать

В sklearn все модели машинного обучения реализованы в виде классов Python.

Шаг 2. Сделайте экземпляр модели

Пожалуйста, посмотритедокументацияесли вам интересно, что делает изменяющийся решатель. По сути, мы меняем алгоритм оптимизации.

Шаг 3. Обучение модели на данных, хранение информации, полученной из данных

Модель изучает отношения между x (цифры) и y (метки)

Шаг 4. Предсказать метки новых данных (новые изображения)
Использует информацию, полученную моделью в процессе обучения модели.

Прогноз для нескольких наблюдений (изображений) одновременно

Делайте прогнозы на все данные испытаний

Измерение производительности модели (MNIST)

Точность определяется как:

(доля правильных прогнозов): правильные прогнозы / общее количество точек данных

Вкратце хочу упомянуть, что параметр алгоритма оптимизации по умолчанию был solver = liblinear и потребовалось 2893,1 секунды, чтобы бежать с точностью 91,45%. Когда я установил solver = lbfgs Потребовалось 52,86 секунды для бега с точностью 91,3%. Смена решателя оказала незначительное влияние на точность, но, по крайней мере, это было намного быстрее.

Отображать неправильно классифицированные изображения с помощью прогнозируемых меток (MNIST)

В то время как я мог показать другую матрицу замешательства, я полагал, что люди скорее увидят неправильно классифицированные изображения на случай, если кому-то будет интересно.

Получение индекса неправильно классифицированных изображений

Отображение неверно классифицированных изображений и меток изображений с помощью matplotlib

Заключительные мысли

Источник

Python Sklearn Logistic Regression Tutorial with Example

Introduction

In this article, we will go through the tutorial for implementing logistic Regression

What is Logistic Regression?

Contrary to its name, logistic regression is actually a Classification

Logistic regression uses the logistic function to calculate the probability.

(source)

In the below illustration, the probability outcome y=0.8 will be treated as a positive Class

(source)

Example of Logistic Regression in Python Sklearn

For performing logistic regression in Python, we have a function LogisticRegression() available in the Scikit Learn package that can be used quite easily.

Let us understand its implementation with an end-to-end project example below where we will use credit card data to predict fraud.

i) Loading Libraries

The very first step is to load the libraries that will be required for building the model.

ii) Load data

Now we will be loading the dataset into our environment. This dataset is obtained from Kaggle. It contains information about credit card transactions. They are classified as fraudulent and non-fraudulent transactions.

iii) Visualize Data

The bar plot shows that in the dataset we have the majority of non-fraudulent transactions. This type of problem will give rise to the imbalanced class problem.

If we build a model with the help of this dataset then the classifier would always predict transactions as non-fraudulent. This will result in a classifier with high accuracy but it will be of no use.

The following code snippet output shows the accuracy expected of this model

Since the accuracy won’t be useful for model evaluation, so we will use the AUC ROC score for checking the model quality.

iv) Splitting into Training and Test set

First, we will segregate the independent variables in data frames X and the dependent variable in data frame y.

Next, we split the dataset into training and testing sets with the help of train_test_split() function.

v) Model Building and Training

Before we build the model, we use the standard scaler function to scale the values into a common range. Next, we create an instance of LogisticRegression() function for logistic regression.

We are not passing any parameters to LogisticRegression() so it will assume default parameters. Some of the important parameters you should know are –

Here we are also making use of Pipeline to create the model to streamline standard scalar and model building.

Источник

Пошаговое построение логистической регрессии в Python

Jul 12, 2020 · 9 min read

Логистическая регрессия — это алгоритм классификации машинного обучения, используемый для прогнозирования вероятности категориальной зависимой переменной. В логистической регрессии зависимая переменная является бинарной переменной, содержащей данные, закодированные как 1 (да, успех и т.п.) или 0 (нет, провал и т.п.). Другими словами, модель логистической регрессии предсказывает P(Y=1) как функцию X.

Условия логистической регрессии

Держа в уме все перечисленные условия, давайте взглянем на наш набор данных.

Данные

Набор данных взят с репозитория машинного обучения UCI и относится к прямым маркетинговым кампаниям (телефонный обзвон) португальского банковского учреждения. Цель классификации в прогнозировании успеха подписки клиента (1/0) на срочный депозит (переменная y). Загрузить этот набор данных можно здесь.

Эт и данные предоставляют информацию о клиентах банка, которая включает 41,188 записей и 21 поле.

Прогнозируемая переменная (желаемая цель):

y —подписался ли клиент на срочный вклад (двоично: “1” означает “Да”, “0” означает “Нет”).

Колонка образования в наборе данных имеет очень много категорий, и нам нужно сократить их для оптимизации моделирования. В этой колонке представлены следующие категории:

Источник

Логистическая регрессия в Python — Краткое руководство

Логистическая регрессия — это статистический метод классификации объектов. В этой главе будет дано введение в логистическую регрессию с помощью нескольких примеров.

классификация

Чтобы понять логистическую регрессию, вы должны знать, что означает классификация. Давайте рассмотрим следующие примеры, чтобы понять это лучше —

В течение многих лет люди выполняли такие задачи — хотя они подвержены ошибкам. Вопрос в том, можем ли мы обучить машины выполнять эти задачи с большей точностью?

Одним из примеров того, как машина выполняет классификацию, является почтовый клиент на вашем компьютере, который классифицирует каждое входящее письмо как «спам» или «не спам» и делает это с довольно большой точностью. Статистический метод логистической регрессии был успешно применен в почтовом клиенте. В этом случае мы обучили нашу машину решать проблему классификации.

Логистическая регрессия — это только одна часть машинного обучения, используемая для решения этой проблемы бинарной классификации. Существует несколько других методов машинного обучения, которые уже разработаны и применяются для решения других видов проблем.

Если вы заметили, что во всех приведенных выше примерах результат предикации имеет только два значения — Да или Нет. Мы называем их классами — так сказать, мы говорим, что наш классификатор классифицирует объекты по двум классам. С технической точки зрения, мы можем сказать, что результат или целевая переменная имеет дихотомический характер.

Существуют и другие проблемы классификации, в которых выходные данные могут быть классифицированы более чем на два класса. Например, при наличии корзины с фруктами вас просят разделить фрукты разных видов. Теперь корзина может содержать апельсины, яблоки, манго и так далее. Поэтому, когда вы отделяете фрукты, вы разделяете их более чем на два класса. Это проблема многомерной классификации.

Логистическая регрессия в Python — тематическое исследование

Учтите, что банк обращается к вам с просьбой разработать приложение для машинного обучения, которое поможет им идентифицировать потенциальных клиентов, которые открывают им срочный депозит (также называемый срочным депозитом некоторыми банками). Банк регулярно проводит опрос с помощью телефонных звонков или веб-форм для сбора информации о потенциальных клиентах. Опрос носит общий характер и проводится для очень большой аудитории, из которой многие могут быть не заинтересованы в работе с этим банком. Из остальных только немногие могут быть заинтересованы в открытии Срочного депозита. Другие могут быть заинтересованы в других услугах, предлагаемых банком. Таким образом, опрос не обязательно проводится для выявления клиентов, открывающих ТД. Ваша задача — выявить всех тех клиентов, которые с высокой вероятностью открывают TD, по огромным данным опроса, которыми банк собирается поделиться с вами.

В следующих главах давайте теперь выполним разработку приложения с использованием тех же данных.

Настройка проекта

В этой главе мы подробно разберем процесс настройки проекта для выполнения логистической регрессии в Python.

Установка Jupyter

После успешной установки Jupyter, запустите новый проект, ваш экран на этом этапе будет выглядеть следующим образом, готовым принять ваш код.

Сначала мы импортируем несколько пакетов Python, которые нам понадобятся в нашем коде.

Импорт пакетов Python

Для этого введите или вырезайте и вставляйте следующий код в редактор кода —

Ваш Блокнот должен выглядеть следующим образом на этом этапе —

Первые три оператора import импортируют пакеты pandas, numpy и matplotlib.pyplot в нашем проекте. Следующие три оператора импортируют указанные модули из sklearn.

Наша следующая задача — загрузить данные, необходимые для нашего проекта. Мы узнаем об этом в следующей главе.

Логистическая регрессия в Python — Получение данных

Этапы получения данных для выполнения логистической регрессии в Python подробно обсуждаются в этой главе.

Загрузка набора данных

Загрузите файл bank.zip, нажав на данную ссылку. ZIP-файл содержит следующие файлы:

Мы будем использовать файл bank.csv для разработки нашей модели. Файл bank-names.txt содержит описание базы данных, которая понадобится вам позже. В файле bank-full.csv содержится гораздо больший набор данных, который вы можете использовать для более сложных разработок.

Здесь мы включили файл bank.csv в загружаемый исходный zip-архив. Этот файл содержит поля, разделенные запятыми. Мы также внесли несколько изменений в файл. Для обучения рекомендуется использовать файл, включенный в исходный zip-файл проекта.

Загрузка данных

Чтобы загрузить данные из файла CSV, который вы только что скопировали, введите следующую инструкцию и запустите код.

Вы также сможете проверить загруженные данные, выполнив следующую инструкцию кода:

Как только команда будет запущена, вы увидите следующий вывод:

По сути, он напечатал первые пять строк загруженных данных. Изучите 21 присутствующих столбцов. Мы будем использовать только несколько столбцов из них для разработки нашей модели.

К счастью, bank.csv не содержит строк с NaN, поэтому в нашем случае этот шаг действительно не требуется. Тем не менее, в целом трудно обнаружить такие строки в огромной базе данных. Поэтому всегда безопаснее запускать приведенный выше оператор для очистки данных.

Примечание. Вы можете легко проверить размер данных в любой момент времени, используя следующую инструкцию:

Количество строк и столбцов будет напечатано в выходных данных, как показано во второй строке выше.

Следующее, что нужно сделать, это изучить пригодность каждого столбца для модели, которую мы пытаемся построить.

Логистическая регрессия в Python — Реструктуризация данных

Всякий раз, когда какая-либо организация проводит опрос, она старается собрать как можно больше информации от клиента, полагая, что эта информация будет полезна для организации тем или иным способом в более поздний момент времени. Чтобы решить текущую проблему, мы должны подобрать информацию, которая имеет непосредственное отношение к нашей проблеме.

Отображение всех полей

Теперь давайте посмотрим, как выбрать полезные для нас поля данных. Запустите следующую инструкцию в редакторе кода.

Вы увидите следующий вывод —

Вывод показывает имена всех столбцов в базе данных. Последний столбец «y» представляет собой логическое значение, указывающее, имеет ли данный клиент срочный депозит в банке. Значения этого поля: «y» или «n». Вы можете прочитать описание и назначение каждого столбца в файле banks-name.txt, который был загружен как часть данных.

Устранение нежелательных полей

Источник

Логистическая регрессия с использованием Python (scikit-learn)

Начало работы (предварительные условия)

Логистическая регрессия на наборе цифр

Загрузка данных (набор данных цифр)

Отображение изображений и меток (набор данных цифр)

Разделение данных на обучающие и тестовые наборы (набор данных цифр)

4-ступенчатая модель моделирования Scikit-learn (набор данных цифр)

Измерение производительности модели (набор данных цифр)

Матрица путаницы (набор данных цифр)

Логистическая регрессия (MNIST)

Загрузка данных (MNIST)

Разделение данных на обучающие и тестовые наборы (MNIST)

Отображение изображений и ярлыков (MNIST)

4-ступенчатая модель моделирования Scikit-learn (MNIST)

Измерение производительности модели (MNIST)

Отображать неправильно классифицированные изображения с помощью прогнозируемых меток (MNIST)

Заключительные мысли

Python Sklearn Logistic Regression Tutorial with Example

Introduction

What is Logistic Regression?

Example of Logistic Regression in Python Sklearn

i) Loading Libraries

ii) Load data

iii) Visualize Data

iv) Splitting into Training and Test set

v) Model Building and Training

Пошаговое построение логистической регрессии в Python

Условия логистической регрессии

Данные

Логистическая регрессия в Python — Краткое руководство

классификация

Логистическая регрессия в Python — тематическое исследование

Настройка проекта

Установка Jupyter

Импорт пакетов Python

Логистическая регрессия в Python — Получение данных

Загрузка набора данных

Загрузка данных

Логистическая регрессия в Python — Реструктуризация данных

Отображение всех полей

Устранение нежелательных полей

Вам также понравится

какие люди нам нравятся психология

какие луговые растения похожи на животных

Голодная пустошь книга о чем

Добавить комментарий Отменить ответ