千锋教育Python大数据分析+大模型应用开发课程

【开课时间】2025/11/18【上课地点】北京【学习费用】详询

什么是数据分析

数据和智能是第四次和第五次工业革命的基石,也是现代企业最为重要的生产资料。目前,各行各业对信息技术的依赖程度都在不断加深,无论是政府行为还是商业行为,都严重依赖于数字化建设。在大数据时代,我们经常会感到数据越来越多,但是要从数据中发现有价值的信息却越来越难。数据分析就是从原始数据中获取商业价值的过程,通过对原始数据的收集、加工和整理,使用统计方法、可视化技术、挖掘算法实现数据的透视、呈现和解读,最终获得有价值的信息和业务洞察,并以此为基础指导企业的决策。

千锋教育Python大数据分析+大模型应用开发课程

数字化人才国内现状

1、缺人才 数字化人才缺口严重

面对快速到来的数字化时代,存量的数字化人才并不多外招难度大,且“需求>供给",进一步加剧了数字化人才供给难题。

2、缺标尺 数字化人才选育缺少统一标准

数宇化人才属于"新生人才物种”,具有复合性特点自带"多技能包”,大多数企业还不确定公司员工目前的能力和所需技能之间的差距,也就无法准确测量技能鸿沟,进行选拨和整体能力规划。

3、缺方法 数字化转型升级缺少张提规划

企业在持续打造学习型组织的过程中,如何搭建一支强有力的数字化人才方阵,持续性、系统性获取知识.用学习驱动融合,赋能数字化组织,推动人和组织的持续进化,成为重要课题。

4、缺抓手 如何找准切入点实践数字化转型

一方面,随着数字化变革进入深水区,实操业务场景陆续落地,企业开始面临能力供给与需求不匹配、场景专业性无法快速提升、对新兴克合格局不适应等-系列严峻挑战。另一方面,如何找到抓手,“在业务场景中学习"在实战项目中学习”迅速掌提数宇化技能跟上企业数字化转型节奏,成为重要突破口。

近年来,随着信息化技术的普及以及大数据和人工智能技术在各行各业的应用,市场对数字化人才的需求逐年递增,其中数据治理工程师、业务数据分析师和数据挖掘工程师的人才缺口最大。中国信息通信研究院发布的《数字经济就业影响研究报告》指出,2020 年我国数字化人才缺口接近 1100 万,而且伴随传统行业的数字化转型以及全行业的数字化推进,人才需求缺口仍然在持续放大。无独有偶,波士顿咨询公司(BCG)发布的《数字经济下就业与人才研究报告》也指出2035 年中国整体数字经济规模将接近,总就业容量将达到4.15亿,如果不实施有效的人才战略,到时可能出现一个巨大的人才缺口,不只是在数量上,还有技能方面的缺口。另一方面,由于互联网行业已经不再处于流量红利时代,市场竞争日趋复杂和激烈,如何实现低成本获客、如何培养忠诚用户以及如何保持营收增长是每个企业都必须直面的问题。在这样的背景下,无论B端还是C端业务,都需要实现数字化、精细化运营,企业对数据驱动决策的依赖达到了前所未有的高度,数据分析师就是完成上述工作内容最为重要的角色。

数据分析的学习内容

数据分析就是“数据思维+分析工具",其中,数据思维解决了如何认知和解读数据的问题,而分斤工具则帮助我们实现了快速便捷的数据处理和结果早现。

课程迭代升级数据科学为王

课程概述

本课程面向大数据时代各行各业对数据学科的需求,通过从零开始的系统化训练,帮助学员养成数据分析思维,掌握数据分析工具,理解数据治理方法,最终培养出商业数据分析师、数据挖掘工程师和数据治理工程师等现代企业急需的人才。本次课程升级在原有内容基础上进一步强化了商业画布梳理、指标体系建设、数据仓库建设、A/B 测试、用户画像、因果推断等知识,除此之外,还增加了 A 大模型辅助数据分析和基于大模型的 A 智能体开发等内容,让学员在真实的项目中感受数据分析的魅力,认识数据科学的价值,最终掌握用数据驱动企业决策的综合能力。

大纲升级

在深入调研企业数字化运营需求的基础上,由多名资深数据分析师和企业数据架构师历时八个月匠心打磨。课程聚焦业务知识,培养数据思维,深耕分析方法,强化分析工具,紧扣时代脉搏每一次的变革都是为了让我们的学员在未来更具核心竞争力。

大纲更新依据

数千名学员反馈

统计数千名千锋老学员所在公司实际使用的技术和工具以及学员在求值面试中反馈的问题

企业顾问实战

结合多名资深数据分析师的工作经验,汇聚阿里、百度、美团小红书等一线名企大咖的建议。

教研学院深入探索

专业教研团队按企业实际需求和学员学习规律设计课程,定期选代更新。

千锋教育Python大数据分析+大模型应用开发课程

递进式课程设置

阶段四

职业素养提升(2 周)

大模型本地部署

提示词工程

LangChain 和 Dify

AI智能体开发

企业导师和老学员分享

经典面试题讲解

一对一模拟面试

阶段三

数据挖掘实战(4 周)

数学基础和统计思维

数据挖掘算法和 scikit-learn

神经网络模型和深度学习

数据治理和 ETL 工具

Hive 和数据仓库

PySpark 大数据处理

阶段二

数据分析进阶(4 周)

数据库和 SQL 业务提数

商业面布和通用营收公式

业务指标和指标体系建设

数据分析方法论

商业智能工具

Python 数据分析工具库

数据分析报告撰写

阶段一

数据分析基础(4 周)

Python 语言基础

Python 办公自动化

Python 数据处理入门

Python 数据可视化入门

Excel 商业分析实战

千锋教育Python大数据分析+大模型应用开发课程

学习收获

01掌握 Excel 高级技巧,实现数据透视和数据看板定制

02掌握最热门的 Python 语言,实现繁琐工作自动化

03掌握 SQL 复杂查询,轻松搞定日常工作中的提数问题

04掌握数据分析方法,准确解读数据中隐藏的商业价值

05掌握常用 BI 工具,:轻松定制企业数字化驾驶舱

06掌握数据挖掘算法,通过建模预测做到事事提前亮

07掌握 ETL 工具和 Hive,定制数据仓库实现数据治理

08掌握基于大模型的 A 智能体开发,全面提升企业工作效率

千锋教育Python大数据分析+大模型应用开发课程

课程升级内容

增加了 Excel 数据分析新功能和 AI插件辅助数据分析

强化了 Python 语言在日常工作自动化方面的应用

强化了商业画布制作和商业模式的梳理

增加了因果推断应用场景和相关案例

增加了商业智能工具接入 DeepSeek辅助分析案例

强化了 A/B 测试的案例和细节拆解

增加了统计学赋能增长黑客的内容

增加了神经网络模型和深度学习相关内容

强化了风控算法和风控模型相关知识及其应用场景

强化了 PySpark 在大数据分析中的应用

增加了本地大模型部考及相关工具应用的内容

增加了基于大模型的智能体(AlAgent)开发相关内容

增加了 LangChain 和 Llamalndex 框架相关内容

增加了大模型调优和 RAG 相关内容

增加了 Dify 框架应用相关内容

更新了数据分析师面试题库

课程优势

从基础入门学起,内容循序渐进

基础课都由教学经验丰富、责任心强且有亲和力的老师授课,对小白和新手非常友好,基础课阶段除了基础知识的学习,还穿插了行业认知课程,讲师带学生认识互联网行业和互联网产品,解读各种类型的行业分析报告

务实专业知识,铸造傍身技能

讲师会带领学员认识、了解各类互联网产品的指标体系以及对应的分析方法,指导学生撰写数据分析报告,这是胜任数据分析师岗位的必要条件:所有内容都可以落地,不是空洞和枯燥的理论讲解

企业级项目实战,真实经验在手

课程中实战项目完全匹配企业需求,能够帮助学员掌握多项硬核技能,通过指导学员参与还原企业开发场景的干锋多学科联合项目,学员可以进一步体会到所学知识在真实产品运营中的应用

1对1就业指导,助力顺利就业

专职职业发展老师,根据不同学员学习、就业情况进行1对1指导,从表达训练、简历撰写、职场礼仪、面经分享、面试技巧到模拟面试全流程针对化指导,助力学员顺利拿到满惠的 Offer

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程

千锋教育Python大数据分析+大模型应用开发课程





授课主题授课内容授课细节项目/案例
第一周 Excel商业数据分析入门第1天 数据分析概述数据分析发展史人力资源数据快速查询系统
数据分析对现代企业的重要性销售数据可视化看板
数据分析在各行业的应用招聘门户网站数据看板
数据分析师的日常工作企业营收数据报表制作
数据分析师的职业规划游戏运营数据报表制作
数据分析师招聘需求解读Excel面试真题详解
安装和认识Excel

第2天 Excel 快速上手数据的输入、填充和格式化
定位条件和查找替换
数据筛选和高级筛选
条件格式和排序工具
数据的合并和拆分
区域和表格的相互转换
表功能的使用
选择性粘贴
文档安全性相关设置
Excel常用快捷键讲解

第3天 函数和公式计算单元格的引用
锁定行和列
实现跨表引用
数学函数的使用
统计函数的使用
文本函数的使用
日期函数的使用
逻辑函数的使用
查找与引用函数的使用

第4天 透视表和商业数据看板透视表的本质和应用场景
插入和定制透视表
常用统计图表及其应用场景介绍
基本图表的应用
高阶图表的应用
迷你图的应用
添加和定制切片器

第5天 Excel项目实战实战1:商业数据分析看板项目
实战2:数据分析日报制作




第二周第1天Python环境安装和语言基础
Python语言入门
Python语言概述


Python开发环境的安装(3.8+)


PyCharm的安装和使用


认识计算机和程序


注释的使用


定义和使用变量


变量的命名规范


标识符和关键字


常用数据类型


数据类型的转换


输入和输出函数


常用运算符介绍


运算符的优先级和结合性

第2天表达式和分支结构制作个人名片
周长和面积的计算
单位转换器
分段函数的求值
个人所得税计算
数字游戏


使用变量和运算符构造表达式


通过列表表达式解决问题


分支结构的应用场景


使用if、elif、else构造分支结构


嵌套的分支结构


使用match、case构造分支结构

第3天循环结构水仙花数和完美数
乘法口诀表
斐波拉契的兔子
CRAPS赌博游戏
《算经》中的“百钱百鸡”
滚动的文字


循环结构的应用场景


for循环和range函数


用while构造循环


for循环和continue应用场景区分


break和continue关键字的使用


嵌套的循环结构

第4天分支和循环结构的应用经典编程练习
在线编程刷题
穷举法(暴力破解法)的应用
综合案例:CRAPS赌博游戏


经典编程练习


在线编程刷题


穷举法(暴力破解法)的应用


综合案例:CRAPS赌博游戏

第5天字符串的应用字符串的定义
Pythong中字符串的表示方式
转义字符和原始字符串
字符串长度获取
字符串相关的运算
字符串的常用方法
格式化字符串
不可变字符串和可变字符串(StringIO)
字符集和字符编码(编码黑洞和乱码问题)
正则表达式简介


字符串的定义


Pythong中字符串的表示方式


转义字符和原始字符串


字符串长度获取


字符串相关的运算


字符串的常用方法


格式化字符串


不可变字符串和可变字符串(StringIO)


字符集和字符编码(编码黑洞和乱码问题)


正则表达式简介
第三周Python 语言进阶第1天 列表的应用







容器型数据类型的应用场景
列表的定义
len   函数和列表元素个数
列表相关的运算
列表元素的循环遍历
列表元素的添加和删除

第2天 元组和集合的应用列表的常用方法
列表的浅拷贝和深拷贝问题
创建列表的生成式(推导式)语法
列表应用举例
元组的定义和使用
元组和列表的区别
元组的应用场景(打包解包、变量值交换)

第3天 字典的应用集合的定义
集合和列表的区别
集合相关的运算
集合的常用方法
字典典型应用场景
字典的定义

第4天 函数使用入门字典对键和值的要求
字典的增删改查和循环遍历
字典的常用方法
字典应用举例
为什么要使用函数
函数的定义和调用
函数的参数(自变量)和返回值(因变量)
函数参数的默认值

第5天 包和模块可变参数和关键字参数
函数的嵌套
Python   中的作用域(LEGB)
global 和   nonlocal 关键字的用法
Python   常用内置函数
命名冲突问题
包和模块的概念
import 和   from 关键字的用法
包和模块的别名


_init__.py 文件的作用


Python 标准库中的常用模块


如何获取第三方模块


安装和使用第三方模块(pip 命令详解)
第四周Python   语言应用第1天 函数高级用法+C149C149:C153一等函数的概念和使用 高阶函数的概念和使用 Python   内置函数中的高阶函数 Lambda 函数的应用 装饰器的概念 创建和装饰器函数 函数的递归调用 递归函数的优化

第2天 面向对象编程概述面向对象编程思想 面向对象的应用场景   面向对象的核心概念(类和对象) 定义类(数据抽象和行为抽象) 创建对象(构造器函数) 给对象发消息(调用对象方法) 类方法和静态方法 dir 函数的使用   汉诺塔问题 骑士周游问题 八皇后问题 记录函数的执行时间 数字时钟和计时器 Black Jack 扑克游戏 奥特曼打小怪兽 工资结算系统

第3天 面向对象编程进阶常用的魔法方法 运算符重载 继承的概念 方法定义和多态 多重继承和   MRO 问题

第4天 Python 办公自动化Python 文件读写 异常处理机制 Python 读写   Excel 文件 Excel 公式计算和图表生成 Python 生成 Word 文档 Python 处理 PDF 文件

第5天 用 Python 处理数据数据的保存方式 JSON 格式 从 API 接口中获取数据   数据的描述性统计信息 statistics 模块的应用 数据可视化 pyecharts 库的使用
第五周数据库和SQL第1天 关系数据库概+C154:C159述和MySQL数据库数据库的作用和分类 关系型数据库的特点 关系型数据库产品介绍   MySQL的安装和配置 MySQL的命令行和GUI客户端 SQL(结构化查询语言)简介 创建数据库和二维表 MySQL数据类型详解   主键约束、默认值约束和非空约束

第2天 表关系和CRUD操作表关系和实体关系图(ER图) 多对一关系的建立和外键约束   一对一关系的建立和唯一性约束 多对多关系的建立和中间表 使用insert插入数据 使用delete删除数据 使用update修改数据   使用select实现简单查

第3天 SQL数据查询详解投影、别名和运算符 数据筛选和空值处理(where子句)   模糊查询和通配符的使用 去重操作(distinct) 排序(order by 子句) 限制查询结果(limit子句) 分组和聚合函数(group   by子句) 分组后的数据筛选(having子句) 嵌套查询(子查询) 笛卡尔积、内连接和自然连接 左外连接、右外连接和全外连接 租房网站数据库设计   在线教育平台数据库设计和查询 电商网站核心数据库设计和查询 HRMS数据库设计和查询 力扣SQL刷题辅导

第4天 窗口函数及其应用窗口函数语法概述 使用窗口函数解决排名问题   使用窗口函数解决TopN查询问题 使用窗口函数解决同比环比问题 SQL查询面试深度解析 JSON类型和用户标签查询 Python程序接入数据库概述   三方库mysqlclient和pymysql介绍 创建数据库连接对象(Connection) 创建和使用游标对象(Cursor)   获取数据库查询结果的三种方式

第5天 数据库其他相关知识生成批处理插入数据 使用explain分析执行计划   索引的创建和底层的数据结构(B+树) 前缀索引、复合索引、覆盖索引 使用DQL授予和收回权限 视图的概念和应用场景 函数和存储过程的应用




第六周   数据分析思维和商业智能工具第1天 指标和指标体系互联网行业认知 互联网产品的定义和商业模式认知   互联网营收通用公式拆解 互联网产品和用户的生命周期 指标的概念和常用业务指标 北极星指标和伴随指标 指标体系的搭建和作用 如何为企业搭建指标体系   数据规划的OSM模型和UJM模型

第2天 数据分析方法论和模型使用对比法发现问题 通过拆解法缩小问题范围 通过漏斗法定位问题环节   通过相关分析找寻业务抓手 通过象限分析法进行分群 RFM模型用户价值分析 AIPL模型和运营三件套 AARRR模型和RARDA模型

第3天 Power BI入门Excel中的Power Query插件介绍   从Excel升级到Power BI的理由 Excel Desktop的安装 Power BI的组网网站 Power BI的功能帮助功能 Power   BI功能初体验 输入和连接数据 常用App商业画布制作 电商客服指标分析和可视化 连锁咖啡店产品和用户数据分析 零售行业利润下滑诊断分析   云产品销售业绩下滑诊断分析 人力资源数字化大屏

第4天 Power BI数据清洗和建模Power Query编辑器的使用 更改数据类型   处理重复值和异常值 数据的排序和筛选 删除行和列 列的合并和拆分 添加自定义列 合并和追加表数据 表关系的编辑和删除

第5天 Power BI数据可视化和报表制作DAX的概念和语法 常用DAX函数 度量值和计算列   常用视觉对象的介绍 调整视觉对象的外观 从市场加载更多视觉对象 Power BI编交互和工具提示 数据的钻取 切片器的应用 动态数据单位和指标切换   Power BI报表设计




第七周   数据分析思维和商业智能工具第1天 认识和使用TableauTableau简介;Tableau   Desktop的安装和功能区介绍;Tableau连接数据源;数据类型和运算符;表关系、表连接和数据合并;创建和使用工作表;可视化图表的应用

第2天 深入探索Tableau分层结构和数据钻取;数据字段和数据桶;计算字段、函数和参数;组、集和筛选器;高级可视化图表的应用;参考线和参考区间;相关分析和回归模型;时间序列分析;LOD表达式的应用场景

第3天 Tableau项目实战项目背景和数据介绍;使用Tableau Prep   Builder实现数据清洗;数据的加载和建模;制作部分数据统计图表;仪表板的创建;故事的创建和使用;Tableau Server介绍;使用Tableau   Public发布工作簿

外卖平台销售和配送分析;物流行业数据可视化分析;线上店铺业务异常诊断分析;在线教育平台销售漏斗分析;在线教育平台数据报告解读;防晒品市场分析报告解读


第4天 Python数据分析工具介绍Jupyter   的安装和启动;新建和使用Notebook;编写和运行代码;Markdown   笔记和查看文档;常用快捷键和魔法指令介绍;安装和配置插件;执行系统命令的方法;安装数据分析相关三方库;NumPy、Pandas 和 Matplotlib   初体验

第5天 使用NumPy实现批量数据处理创建ndarray对象;ndarray对象的属性;ndarray   对象的索引和切片;ndarray对象的方法;ndarray对象和标量的运算;两个ndarray对象的运算;广播机制;NumPy中操作数组的函数




析思维和商业智能工具第1天 pandas数据分析入门pandas三种核心数据类型
读取CSV和Excel文件创建DataFrame
从数据库二维表获取数据创建DataFrame
DataFrame对象的属性
DataFrame对象的常用方法
操作DataFrame对象的行和列
DataFrame对象的单元格
DataFrame对象的数据筛选
DataFrame对象的数据拼接和合并
数据清洗的概念
DataFrame处理缺失值、异常值和重复值
DataFrame对象数据的变形和预处理
生成虚拟变量
数据的分箱(离散化)
第八周 数据分析思维和商业智能工具第2天 pandas数据分析进阶DataFrame对象的数据排序和头部数据获取图像的旋转和剪裁
基于Series和DataFrame对象的数据分组聚合操作图像的旋转、缩放和剪切映射
生成透视表和交叉表科比投篮客观数据分析
DataFrame对象绘制折线图图表B站学习视频数据分析
DataFrame对象的数据抽样旅游景点数据分析和可视化
DataFrame对象的面积计算股票投资决策模拟
计算协方差和相关系数零售行业销售数据分析
Index类型及其子类型概述抖音V数据分析可视化
时间序列和DatetimeIndex对象的常用方法视频网站运营数据分析和可视化

电商大促活动数据复盘分析
第八周 数据分析思维和商业智能工具第3天 matplotlib统计图表绘制Matplotlib概述
matplotlib的配置参数
创建画布
定制坐标系
折线图和面积图
散点图和气泡图
柱状图和堆叠柱状图
饼图和环状饼图
箱线图和小提琴图
雷达图和玫瑰图
第八周 数据分析思维和商业智能工具第4天 项目实战-1电商产品的生命周期
电商用户的生命周期
电商产品的人货场模型
电商产品业务痛点和机会点分析
电商产品核心指标和指标体系解析
电商产品运营活动概述
FAST模型和KISS复盘
用户画像和用户标签
第八周   数据分析思维和商业智能工具第5天 项目实战-2电商订单分析
电商运营活动分析
用户画像和用户标签
数据分析报告撰写
周 统计思维及其应用第1天概率论概述概率论和统计学概述
统计思维对数据分析的重要性
数据和数据的分类
获取数据的描述性统计信息
探索数据的分布
随机事件、样本空间和随机试验
概率的定义
复合事件和条件概率
随机变量的概念
期望和方差
离散型随机变量及其分布
第九周 统计思维及其应用第2天中心极限定理和假设检验正态分布
数据获取和抽样
常用统计量
基于正态分布的三大分布
抽样均值分布
中心极限定理
假设检验的基本原理
z检验、t检验和卡方检验
第九周 统计思维及其应用第3天区间估计和方差分析参数估计的方法
点估计的实施方法
区间估计的原理
应用估计解决实际问题
样本容量的确定
区间估计和假设检验的联系
方差分析的基本思想
方差分析的实施思路
第九周 统计思维及其应用第4天相关性和回归分析变量关系的确定
相关关系和相关系数
一元线性回归和最小二乘法
回归模型的验证
哑变量回归
多元线性回归
消除多重共线性
岭回归和逻辑回归
第九周 统计思维及其应用第5天时间序列分析时间序列的基本定义
平稳时间序列
自回归模型
移动平均模型
自相关移动平均模型
ARIMA模型
时间序列分析案例讲解




十周 机器学习算法第1天 机器学习概述和KNN算法机器学习概述
机器学习算法的分类
机器学习的工作流程
KNN算法原理
距离的度量
数据集介绍和数据的划分
knn分类模型的构建
knn分类模型的优化
分类模型的评估标准
第十周 机器学习算法第2天 决策树和随机森林算法决策树算法概述
特征选择依据
决策树的分裂和剪枝
决策树应用实战
决策树模型超参数调优
随机森林算法
随机森林的优缺点
随机森林超参数调优
第十周 机器学习算法第3天 回归算法回归模型的分类肿瘤预测模型
线性回归管理和数学推导员工离职预测模型
线性回归代码实现新闻自动分类模型
多重共线性的危害、检验和避免泰坦尼克号生存预测
Ridge   回归和Lasso 回归原理及应用京东口碑评论情感预测
梯度下降算法和极大似然估计客户价值和购买周期预测
损失函数选及最优化
回归模型的超参数调优
多项式回归
逻辑回归的算法原理
逻辑斯蒂回归的应用及优化
第十周 机器学习算法第4天 聚类算法无监督学习介绍
聚类算法的应用场景
K-Means   聚类原理
簇的概念和质心的寻找
K-Means   算法的代码实现
K-Means   算法优缺点和扩展优化
最佳K值选择和手肘法
第十周 机器学习算法第5天 支持向量机SVM算法原理和数学推导
最大几何间隔和拉格朗日乘子法
线性核函数的应用及优化
高斯核函数的斜率和截距
高斯核函数应用及优化
SVC   分类算法应用及调参
SVR   回归算法应用及调参
软间隔与硬问题




第十一周 机器学习算法第1天 集成学习算法集成学习概述手写数字识别
集成学习算法分类信用卡反欺诈模型
随机森林和极限树旅游类 App 信息消歧客户违约预测模型
AdaBoost   算法
GBDT   梯度提升树
XGBoost   算法
LightGBM   算法
集成学习算法的应用领域

第2天 神经网络模型什么是神经网络

神经网络与传统机器学习对比

神经网络的应用领域

感知机基本结构

激活函数和损失函数

多层神经网络原理

前向传播和反向传播原理

实现一个神经网络模型

深度神经网络模型和深度学习

深度学习在计算机视觉中的应用

第3天 特征工程数据挖掘标准流程

特征工程概述

特征选择方法

主成分分析(PCA)

线性判别分析(LDA)

t 分布随机邻域嵌入(t-SNE)

第4天-第5天 机器学习项目实战信用风险评估体系

申请者模型、评级模型、催收模型、欺诈模型的关系及意义

信用风险评级模型开发流程

业务场景定义(观察窗口、表现窗口)

异常值和空值的处理

探索性数据分析(EDA)

WOE、IV 值意义及特征转换

特征重要性评估

模型训练和超参数调优

特征选择

特征重要性评估(RFE)

IV 值检验

信用评分转换和评分卡制作

模型监控及拒绝




第十二周 数据仓库和大数据挖掘第1天 Linux系统概述Linux操作系统简介
Linux的常用发行版本介绍
使用SSH密钥工具介绍
Linux系统命令讲解
Linux系统常用工具
Linux系统软件包的安装和管理
Vim和Shell脚本编写

第2天 数据仓库基础数据仓库概述

数据仓库分架构

维度建模和关系建模

星型模型和雪花模型

ETL流程和相关工具

使用Python+pandas实现ETL流程

增量ETL实现方案

数据仓库的存储优化和安全管理

第3天 Hive实战Hadoop大数据生态圈概述电商行业数仓库建设

安装和配置Hive环境用户行为数据采集和分析

配置和初始化Hive元数据库用户购买和流失预测分析

启动和验证Hive大促活动备货和销售预测

HiveSQL语法和数据类型

创建数据库和表

加载数据到Hive表

Hive查询操作

分区表和分桶表

管理表和外部表

Hive常用内置函数

性能调优优化

第4天 PySpark大数据分析Spark架构与核心组件

RDD、DataFrame、Dataset

Spark本地环境和集群环境

安装与配置PySpark

数据读取和基本操作

数据清洗和转换

使用Spark SQL执行复杂任务

PySpark MLlib的应用

PySpark Streaming和实时数据处理

第5天 数据仓库项目实战项目需求与目标

数据源介绍

企业级数据仓库设计

数据加载和准备

使用Hive进行数据查询与分析

Spark SQL与Hive整合

查询性能优化

BI工具接入和数据可视化
第十三周 大模型应用和AI智能体开发第1天 大模型概述和本地化部署大模型及其发展史概述
大模型基本原理和架构(Transformer)
大模型的应用领域、优势和挑战
商业和开源大模型对比
大模型私有化部署概述
部署大模型的硬件需求
Ollama 介绍
Ollama   安装和模型导入
Ollama   相关命令介绍
Ollama   API 的使用
使用   FastAPI 部署 Ollama 可视化界面

第2天 提示词工程提示词的基本概念
提示词结构与格式
提示词的上下文设置
如何设计有效的提示词
基础   Prompt: Few-shot, Zero-shot, CoT
高级   Prompt: ReAct, ToT, Program-aided
提示词调优工具
设计并优化提示词生成指定内容

第3天 大模型开发工具库   transformerstransformers 库是什么大模型知识问答系统
transformers   核心功能模块基于大模型的智能客服系统
大模型开发环境搭建小红书爆款文案生成器
Hugging   Face 概述基于大模型的数据分析智能工具
模型训练基类(Trainer)
训练参数与超参数配置(TrainingArguments)
模型训练评估方法(Hugging   Face Evaluate)
transformers   预训练模型
大模型高效微调技术(PEFT)

第4天 LangChain 框架入门LangChain 概述
LangChain   核心模块
使用   Pipeline
LCEL 的应用
LangChain   调用本地 LLM
RAG   的概念与应用场景
向量数据库概述

第5天 RAG 和大模型微调通过 LangChain 实现基础 RAG 流程
结合   Embedding 模型优化检索
高级 RAG 优化
RAG+LangChain   Agents 结合
RAG   的性能评估与优化指标
微调与适配层(PEFT,   LoRA)
使用   Hugging Face Trainer 进行 SFT
低秩适配(LoRA)优化大模型微调的成本
第十四周 职业指导和模拟面试第1天 LangChain 实战Agents 的基本原理(LLM+计划+记忆+工具)
AI应用架构与系统设计
OpenAI   Function 调用
LangChain   工具
ReAct 与   Self-Refine Agent 实现
让 Agents   具备长期记忆
AI 销售助理 /   智能客服助手项目实战

第2天 Dify 的部署和应用Dify 的概念和核心功能
使用 Dify   平台部署模型
如何可视化构建   AI Agent
数据集管理
Workflow   自动化
结合   LangChain 优化 AI Agent 能力
Dify   与其他工具集成
其他智能体开发框架和工具概述

第3天 就业期的技术和心理准备数据分析师的硬实力和软技能老学员分享面试和工作经验
数据挖掘工程师的能力栈职场达人分享职场经验
如何成为一个优秀的职业人简历和面试要点梳理
就业期的心理准备和心理调整英文面试突击训练
自我介绍话术指导面试真题深入精讲

一对一简历和面试深度指导

第4天 如何制作一份优质的简历数据分析师简历要点
数据挖掘工程师简历要点
简历排版注意事项
简历制作常见问题剖析
STAR   法则的应用
如何给简历做标注稿
网投简历的注意事项和投递方法

第5天 面试流程和注意事项校招面试流理解析
社招面试流理解析
高频面试题回答技巧
如何回答开放式问题
如何避开面试中的坑
面试后的总结和复盘
职业规划的相关问题
入职第一周注意事项

项目一:全科医院就诊和收支数字化大屏

项目背景

核心指标的数据监控和数字驾驶舱是企事业单位在数字化转型上的一个里程碑,项目以某全科医院就诊和收支数据为基础,展示了如何使用商业智能工具实现收入、支出、利润、就诊满意度等核心指标的监控以及数据的同比、环比,通过对数据按就诊时间、地域、病症、科室、就诊类别等维度进行拆解和逐级钻取,掌握数据的构成及其随时间的变化,各类数据以柱状图、瀑布图、树状图、饼图、地图等方式呈现,最终构成数字驾驶舱并产生相应的业务洞察。

相关知识

Power Bl Desktop、Power Query、数据清洗数据建模、事实表、维度表、星型模型、度量值、DAX、视觉对象、筛选器、细分分析法、同比、环比报表、Power Bl Pro

应用场景

企业数据可视化、核心指标监控、数字化大屏数字驾驶舱、业务洞察

项目二:连锁咖啡店用户和产品画像分析

项目背景

新品牌重视直连用户(Direct To Customer),以消费者的需求为牵引力,将产业链条上各个环节整合在自己手中,数据前后打通,然后基于用户数据不断优化产品,构建用户忠诚度金字塔,实现对各级用户的深耕。本项目以某连锁咖啡店销售数据为基础,展示如何对用户数据和产品数据进行多维度细分,构建自身产品画像并以此为基础实现产品的优化;掌握用户的产品偏好、消费能力、支付习惯,最终实现用户进行价值分群以及对不同用户群体的精细化运营。

相关知识

Tableau Desktop、Tableau Prep、雪花模型、计算字段、数据桶、参数、快速表计算、LOD表达式、平均线、趋势线、象限法、细分分析法、相关分析法、RFM 模型、仪表板、故事、Tableau Server、Tableau Public

应用场景

核心指标监控、数字驾驶舱、用户价值分群、产品画像

项目三:零售行业利润下滑诊断分析

项目背景

利润水平是企业的生命线,利润或利润率不仅仅是财务报表中的一个数据,更应该是企业日常数据监控中的一项重要指标,财务人员通常比较关心净利润,数据分析师则更关注毛利润和毛利润率。本项目以某连锁超市门店、商品和销售数据为基础,展示如何运用可视化图表监控销售和利润数据,在遇到毛利润异常下滑时,如何通过公式拆解法和细分分析法快速锁定异常原因,并输出相应的分析报告有非常高的实用价值。

相关知识

对比法、拆解法、象限分析法、地图组件、维度下钻,DAX、智能叙述、分解树

应用场景

核心指标监控、数字化大屏、数字驾驶舱、数据异常诊断和分析

项目四:金融行业信用风险评分卡模型

项目背景

信用凤险指的是交易对手未能履行约定合同中的义务造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。借贷场景中的评分卡是一种以分数的形式来衡量风险几率的-种手段,也是对未来一段时间内违约、逾期、失联概率的预测。本项目使用逻辑回归算法通过对历史逾期样本数据的学习建立评分卡模型,将特征数据映射成分箱的分值,最终给出申请人的信用分数。一般来说,分数越高,风险越小。

相关知识

NumPy、pandas、seabom、EDA(探索性数据分析)、scikit-leam、特征工程、逻辑回归、AUC、ROC、KS、PSI

应用场景

消费金融、信用卡申请审批、贷款自动审核


在线报名(提交表单后我们将尽快联系您)

×关闭
快速查询报考条件
您的姓名: 电话: 学历: 职务: