济南网站排名推广鲜花网页设计模板-Seo优化-河南省网站建设公司

济南网站排名推广,鲜花网页设计模板,wordpress主题无法安装,建设部标准规范网站机器学习入门#xff1a;逻辑回归超详细学习笔记#xff08;含案例代码#xff09; 作为机器学习初学者#xff0c;逻辑回归是我接触的第一个分类算法。它原理清晰、应用广泛#xff0c;而且是理解深度学习中激活函数、损失函数的基础。这篇笔记结合我的学习过程#xf…机器学习入门逻辑回归超详细学习笔记含案例代码作为机器学习初学者逻辑回归是我接触的第一个分类算法。它原理清晰、应用广泛而且是理解深度学习中激活函数、损失函数的基础。这篇笔记结合我的学习过程从基础概念到实战案例一步步拆解逻辑回归适合和我一样的新手入门~一、逻辑回归核心认知它到底是什么1. 算法定位逻辑回归是有监督学习中的分类算法标签为离散值核心用于二分类场景比如是否患病、客户是否流失、邮件是否垃圾邮件。很多新手会被“回归”二字误导——其实它本质是分类只是借用了线性回归的数学框架再通过激活函数完成分类转换。2. 核心原理三步走逻辑回归的核心逻辑特别好理解就三步先对数据做线性回归得到一个取值范围在( − ∞ , ∞ ) (-\infty, \infty)(−∞,∞)的预测值把这个预测值输入Sigmoid激活函数映射到( 0 , 1 ) (0,1)(0,1)区间得到“属于正例的概率”设定阈值常用0.5可自定义概率阈值→判定为正例否则为反例。举个直观例子预测肿瘤是否为恶性正例恶性反例良性线性回归输出89.1 → Sigmoid转换后0.68概率若阈值0.5 → 0.680.5 → 判定为恶性二、关键数学基础Sigmoid函数损失函数1. Sigmoid激活函数核心转换工具1数学公式f ( x ) 1 1 e − x f(x)\frac{1}{1e^{-x}}f(x)1e−x12核心性质映射范围把( − ∞ , ∞ ) (-\infty, \infty)(−∞,∞)的线性输出压缩到( 0 , 1 ) (0,1)(0,1)刚好符合概率的取值范围单调递增输入越大输出概率越高逻辑符合“特征越明显正例概率越高”拐点特性当x 0 x0x0时f ( x ) 0.5 f(x)0.5f(x)0.5阈值的天然参考点导函数简洁f ′ ( x ) f ( x ) ( 1 − f ( x ) ) f(x)f(x)(1-f(x))f′(x)f(x)(1−f(x))后续梯度下降优化时超有用。3可视化理解x: -6 -4 -2 0 2 4 6 f(x): 0.01 0.02 0.12 0.5 0.88 0.98 0.99当x远小于0时输出接近0大概率反例x远大于0时输出接近1大概率正例。2. 损失函数模型优化的标尺损失函数的作用是衡量模型预测值与真实值的“差距”差距越小模型越好。1核心思想若样本真实类别是1正例希望模型预测的概率p pp越大越好若样本真实类别是0反例希望模型预测的概率1 − p 1-p1−p越大越好。2数学表达式对数似然损失单个样本损失L o s s { − l o g ( p ) 若 y 1 − l o g ( 1 − p ) 若 y 0 Loss \begin{cases} -log(p) 若y1 \\ -log(1-p) 若y0 \end{cases}Loss{−log(p)−log(1−p)若y1若y0多个样本m个总损失L o s s ( L ) − ∑ i 1 m ( y i l o g ( p i ) ( 1 − y i ) l o g ( 1 − p i ) ) Loss(L)-\sum_{i1}^{m}\left(y_{i} log \left(p_{i}\right)\left(1-y_{i}\right) log \left(1-p_{i}\right)\right)Loss(L)−i1∑m(yilog(pi)(1−yi)log(1−pi))其中p i s i g m o i d ( w T x i b ) p_i sigmoid(w^T x_i b)pisigmoid(wTxib)逻辑回归的输出概率。3手工计算示例帮你理解假设有2个样本样本1真实标签y 1 y1y1预测概率p 0.4 p0.4p0.4→ 损失− l o g ( 0.4 ) ≈ 0.916 -log(0.4)≈0.916−log(0.4)≈0.916样本2真实标签y 0 y0y0预测概率p 0.68 p0.68p0.68→ 损失− l o g ( 1 − 0.68 ) ≈ 1.139 -log(1-0.68)≈1.139−log(1−0.68)≈1.139总损失 0.916 1.139 ≈ 2.055损失值越小说明模型预测越准模型训练的目标就是最小化这个总损失。4为什么用对数把“乘法概率”转化为“加法损失”方便计算放大预测错误的惩罚比如p 0.1 p0.1p0.1时− l o g ( 0.1 ) 2.3 -log(0.1)2.3−log(0.1)2.3惩罚力度足够大。三、分类模型评估不止正确率新手很容易只看正确率但分类问题中精确率、召回率、AUC往往更重要比如医疗场景漏诊和误诊的代价天差地别。1. 基础混淆矩阵分类结果的“成绩单”混淆矩阵是所有评估指标的基础用4个指标描述分类结果真实值\预测值正例预测反例预测正例真实真正例TP预测对了伪反例FN预测错了漏诊反例真实伪正例FP预测错了误诊真反例TN预测对了2. 核心评估指标1精确率Precision预测为正例的样本中真正例的比例P r e c i s i o n T P T P F P Precision \frac{TP}{TP FP}PrecisionTPFPTP适用场景重视“误诊成本”比如预测是否为罪犯避免冤枉好人。2召回率Recall真实正例中被正确预测的比例R e c a l l T P T P F N Recall \frac{TP}{TP FN}RecallTPFNTP适用场景重视“漏诊成本”比如癌症预测尽量不遗漏患者。3F1-score平衡精确率和召回率精确率和召回率往往是“此消彼长”的F1-score是两者的调和平均综合反映模型性能F 1 2 × P r e c i s i o n × R e c a l l P r e c i s i o n R e c a l l F1 2 × \frac{Precision × Recall}{Precision Recall}F12×PrecisionRecallPrecision×Recall4AUC/ROC模型区分能力的“金标准”ROC曲线以“假正例率FPR”为横轴“真正例率TPRRecall”为纵轴的曲线AUCROC曲线下的面积范围0~1解读AUC越接近1模型区分正负样本的能力越强AUC0.5时模型和随机猜测一样。四、实战案例乳腺癌预测附完整代码理论再好不如动手跑一遍这里用经典的乳腺癌数据集实现二分类预测。1. 数据说明数据集包含威斯康星州乳腺癌患者的特征如细胞大小、形状等标签为“良性”或“恶性”。2. 完整代码PythonScikit-learn# 1. 导入所需库importnumpyasnpimportpandasaspdfromsklearn.linear_modelimportLogisticRegression# 逻辑回归模型fromsklearn.model_selectionimporttrain_test_split# 数据集分割fromsklearn.preprocessingimportStandardScaler# 特征标准化fromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_score,roc_auc_score# 评估指标# 2. 加载并预处理数据# 加载数据替换为你的数据路径datapd.read_csv(./data/breast-cancer-wisconsin.csv)# 处理缺失值将?替换为NaN然后删除含缺失值的行data.replace(?,np.nan,inplaceTrue)data.dropna(axis0,inplaceTrue)# 3. 特征工程# 提取特征第1列到倒数第1列和标签最后一列xdata.iloc[:,1:-1]# 特征ydata[Class]# 标签1恶性0良性# 分割训练集和测试集测试集占20%x_train,x_test,y_train,y_testtrain_test_split(x,y,test_size0.2,random_state23)# 特征标准化逻辑回归对特征尺度敏感必须做scalerStandardScaler()x_trainscaler.fit_transform(x_train)# 训练集拟合转换x_testscaler.transform(x_test)# 测试集只转换避免数据泄露# 4. 模型训练modelLogisticRegression()# 初始化模型model.fit(x_train,y_train)# 训练模型print(f模型权重w{model.coef_})print(f模型偏置b{model.intercept_})# 5. 模型预测y_predmodel.predict(x_test)# 预测类别0/1y_pred_probmodel.predict_proba(x_test)[:,1]# 预测为正例的概率# 6. 模型评估print(\n 模型评估结果 )print(f正确率Accuracy{accuracy_score(y_test,y_pred):.4f})print(f精确率Precision{precision_score(y_test,y_pred):.4f})print(f召回率Recall{recall_score(y_test,y_pred):.4f})print(fF1-score{f1_score(y_test,y_pred):.4f})print(fAUC值{roc_auc_score(y_test,y_pred_prob):.4f})3. 关键注意点特征标准化逻辑回归基于梯度下降优化特征尺度不一致会导致收敛慢或效果差必须用StandardScaler标准化缺失值处理现实数据常含缺失值这里用dropna删除也可以用均值/中位数填充概率输出predict_proba返回每个样本属于各类别的概率比predict直接返回类别更灵活可自定义阈值。4. 运行结果示例模型权重w[[-0.32 0.51 -0.48 -0.55 -0.21 -0.38 -0.52 -0.29 -0.25]] 模型偏置b[-0.12] 模型评估结果正确率Accuracy0.9649 精确率Precision0.9524 召回率Recall0.9762 F1-score0.9642 AUC值0.9876AUC接近0.99说明模型区分能力很强五、学习路径规划新手友好如果想系统学习逻辑回归推荐按这个顺序来先搞懂核心概念二分类场景、Sigmoid函数的作用吃透数学基础损失函数的推导、极大似然估计的思想不用死磕公式理解逻辑即可动手实现基础案例用Scikit-learn跑通1-2个数据集如本文的乳腺癌预测、鸢尾花二分类深入模型评估对比不同阈值下的精确率/召回率绘制ROC曲线实战复杂场景如电信客户流失预测处理类别不平衡、特征筛选。六、常见问题总结避坑指南逻辑回归能做多分类吗可以通过“一对多”OvR或“一对一”OvO策略扩展Scikit-learn的LogisticRegression默认支持多分类。特征之间有相关性会影响逻辑回归吗会逻辑回归假设特征独立多重共线性会导致系数不稳定可通过方差膨胀因子VIF检测并删除高相关特征。为什么我的模型AUC很低可能原因特征工程不到位如未标准化、缺失值未处理、类别不平衡、阈值设置不合理。逻辑回归和线性回归的区别线性回归预测连续值损失函数是MSE逻辑回归预测离散类别损失函数是对数似然损失通过Sigmoid函数转换。结语逻辑回归是机器学习的“入门钥匙”——它不仅能解决实际分类问题还能帮我们理解激活函数、损失函数、模型评估等核心概念为后续学习神经网络、深度学习打下基础。作为新手建议多动手跑代码、调参数感受不同因素对模型效果的影响。如果遇到问题欢迎在评论区交流祝大家学习顺利

济南网站排名推广鲜花网页设计模板

做网站算运营吗做网站为什么要用源码

创建网站怎么赚钱的西安做网站 499

wordpress录音优化seo方案

免费建个人网站营销方案现金充值什么意思

关于加强门户网站建设的通知茶叶网站策划方案

网站建设工具公司宜城网站建设

济南网站排名推广鲜花网页设计模板

做网站算运营吗做网站为什么要用源码

创建网站怎么赚钱的西安 做网站 499

wordpress录音优化seo方案

免费建个人网站营销方案现金充值什么意思

关于加强门户网站建设的通知茶叶网站策划方案

网站建设工具公司宜城网站建设

创建网站怎么赚钱的西安做网站 499