鹤啸九天 自律更自由,平凡不平庸 Less is More

学习资料汇总(持续更新)

2018-07-21
Qiwen Wang
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


鹤啸九天的技术资料

资料汇总

目录

注意:目录链接只能有一个#号

另外一种页面内链接方法: 点这里从头再读一遍

积累平时的代码

Github/编辑

名词解释    解释(代码引用示例之一)        select * from table where a=3 limit 10;

备注信息:

流程图: (代码引用示例之二)

graph TD st=>start: Start:>https://www.zybuluo.com io=>inputoutput: verification op=>operation: Your Operation cond=>condition: Yes or No? sub=>subroutine: Your Subroutine e=>end st->io->op->cond cond(yes)->e cond(no)->sub->io
sequenceDiagram Alice->Bob: Hello Bob, how are you? Note right of Bob: Bob thinks Bob-->Alice: I am good thanks!

可视化

地图数据可视化

学习资料

返回目录

学习技巧

  • @爱可可-爱生活(新浪微博)
    • 互联时代怎么阅读?
    • 读书重在结构生长,形成扎实的支撑;
    • 碎片阅读重在视野的纳新和扩展,开枝散叶;
    • 思考重在提炼和关联,勾画错综的经脉。
    • 学习就是如此,由外而内,无广不精,无博不深,但能坚持必有所成。
    • 网络阅读的最佳实践,不在“取”,在“舍”,知舍才能知关键,料不在多,有感悟一二足矣。
  • 费曼技巧:通过向别人清楚地解说一件事,来确认自己真的弄懂了这件事。参考:号称终极快速学习法的费曼技巧,究竟是什么样的学习方法?
  • 费曼技巧

  • 学习金字塔

学习金字塔

附:

  • 读书的意义
    • 不读书的人,看到的只是别人画给他看的美好世界;
    • 读了书之后,你认识了黑暗和丑陋;
    • 只有读了更多的书之后,你就站在了巨人的肩上,看到了希望和光明
  • 【2021-12-24】王国维《人间词话》人生三境界。古今之成大事业、大学问者,必经过三种之境界:
    • ①昨夜西风凋碧树,独上高楼,望尽天涯路。此第一境界。
    • ②衣带渐宽终不悔,为伊消得人憔悴。此第二境界。
    • ③众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。此第三境界也。

数学基础

返回目录

  • 【2020-8-27】博弈论速成指南,融入深度学习的经典想法和新思路
    • 五元素标准有助于理解 AI 环境中的游戏动态,即对称 vs 非对称、完美信息 vs 非完美信息、合作 vs 非合作、同时 vs 序列和零和 vs 非零和。
    • 对称博弈统治 AI 世界,其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡
    • 博弈论中正在影响机器学习的新想法:平均场博弈、随机博弈、演化博弈
  • 【2020-10-12】Essentials of Mathematical Methods
  • 全书总共 33 章分成六个部分:
    • Mathematical Foundations(数学基础)
    • Mathematical Optimization Methods(数学优化方法)
    • Classical Statistical Methods(经典统计方法)
    • Dynamics Modeling Methods(动力系统建模方法)
    • Statistical Learning Methods(统计学习方法)
    • Optimal Control and Reinforcement Learning Methods(最优控制和强化学习方法)

计算机基础

水库抽样

分布式计算

推荐系统

机器学习

返回目录

特征工程

基本概念

算法总结

异常检测

  • IsolationForest。欺诈等是一系列的异常孤立点,而IsolationForest则是检测这类孤立点的一个有效算法。无需样本标记、线性时间复杂度。一般情况下要比OneClasSVM等表现要好。尤其是对非高斯分布的样本空间。
  • 【2017-7-31】反欺诈(Fraud Detection)中所用到的机器学习模型有哪些?
    • (1)可视化:相关矩阵+多维尺度变换
    • (2)算法模型:时序相关(时间序列分析)、时序无关(无监督学习Isolation Forest、监督学习one-class SVM、统计学密度估计)
  • 【2018-9-12】python异常检测工具包pydor
  • graph
  • 【2020-3-7】图解异常检测,Anomaly detection with Keras, TensorFlow, and Deep Learning

机器学习经验总结

集成学习

流形学习

  • 什么是流形学习?传统的机器学习方法中,数据点和数据点之间的距离和映射函数f都是定义在欧式空间中的,然而在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的度量难以用于真实世界的非线性数据,从而需要对数据的分布引入新的假设。流形(Manifold)是局部具有欧式空间性质的空间,包括各种纬度的曲线曲面,例如球体、弯曲的平面等。流形是线性子空间的一种非线性推广。参考流形学习的简单介绍
  • 流形学习:本质上,流形学习就是给数据降维的过程。这里假设数据是一个随机样本,采样自一个高维欧氏空间中的流形(manifold),流形学习的任务就是把这个高维流形映射到一个低维(例如2维)的空间里。流形学习可以分为线性算法和非线性算法,前者包括主成分分析(PCA)和线性判别分析(LDA),后者包括等距映射(Isomap),拉普拉斯特征映射(LE)等。流形学习可以用于特征的降维和提取,为后续的基于特征的分析,如聚类和分类,做铺垫,也可以直接应用于数据可视化等。注:摘自集智百科流形学习(优质,包含代码及案例)
    • 拟合线性的流形学习模型:LLE, LTSA, Hessian LLE, 和Modified LLE
    • 拟合非线性的流形学习模型:Isomap,MDS和Spectral Embedding
    • 效果示意如下:降维效果
  • 浙大何晓飞的流形学习ppt,讲的很清楚,全面,最佳资料

降维

常见的pca属于无监督,lda有监督,常用降维方法如下图。【2017-12-28】【精华】PCA可视化讲解 常用降维方法脑图

深度学习

返回目录

什么是神经网络

神经网络发展历史

神经网络网络结构变化

深度学习大牛

深度学习书籍

几本有名的书籍:

时间 类型 名称 备注
Andrew NG cs229:Andrew NG斯坦福机器学习网易公开课 中文字幕  
台大林轩田 Machine Learning Foundations官方ppt,Machine Learning Techniques官方ppt,机器学习基石bilibili地址,机器学习技法bilibili视频地址,机器学习基石百度云链接 密码:30p0,机器学习技法百度云链接,密码:nh16 【2018-8-16】AI有道,红色石头精心整理-林轩田机器学习资源汇总Learning from data下载地址  
Hinton 机器学习和神经网络,网易云课堂    
chris manning 斯坦福2017季CS224n深度学习自然语言处理课程 【2019-07-25】CS224U: Natural Language Understanding  
李宏毅 李宏毅Machine Learning (2017,秋,台湾大学)    
陈蕴侬 台大陈蕴侬老师的深度学习课程。课程主页PPT链接 2020年新出的课程  
牛津 深度学习NLP(牛津大学 2017)(英文字幕)bilibili地址    
andrew ng deeplearning.ai,神经网络和深度学习,bilibili地址,bilibili汉化系列,黄海广博士写的学习笔记,源自AI初学者–(机器学习爱好者)2014斯坦福机器学习,【2018-9-13】Super VIP Cheatsheet: Machine Learning,深度学习 deeplearning.ai  
andrew ng 《MACHINE LEARNING YEARNING》翻译 2018-4-23  
Ian good fellow 《深度学习》读书会分享视频集,bilibili地址    
普林斯顿 普林斯顿-算法    
吴恩达 DeepLearning.ai学习笔记彩绘版,百度云地址 很好的资料,作者TessFerrandez的信息图地址,相关github地址AI Transformation Playbook-AI转型指南  
google Google AI 教学系列片 《Cloud AI Adventures》    
机器学习概念图示 来自Chris Albon博士,英文原版需要12$,中文版百度网盘地址(密码:hje1)由大数据文摘提供 参考资料:300张小抄表搞定机器学习知识点  
语音识别实践 解析深度学习:语音识别实践,pdf 备份pdf链接  
集成学习 周志华:集成学习方法,Ensemble methods Foundations and Algorithms 下载地址:人大经管论坛,腾讯微云,fee8kn CNCC 2016 周志华 57 张 PPT 揭开机器学习本质西瓜书相关公式、代码实现,【2019-08-22】西瓜书-学习笔记,【2020-6-17】新书:机器学习理论导引
Judea Pearl The book of why,电子版    
邓力、刘洋 【2018-11-9】Deep Learning in Natural Language Processing    
  Artificial Intelligence: A Modern Approach    
  Convex Optimization 【2019-08-08】凸优化:算法与复杂度B站  
  Deep Learning Fundamentals: An Introduction for Beginners    
  Optimization in Operations Research    
  Artificial Intelligence: A Modern Approach 参考AI算法8本书  
复旦邱锡鹏教授 【2019-04-09】神经网络与深度学习-pdf    
伯克利 【2019-04-28】Spring 2019 Full Stack Deep Learning Bootcamp,伯克利-全栈深度学习课程 覆盖面很广,很有价值  
伯克利 【2020-7-26】机器学习全面指南 A Comprehensive Guide to Machine Learning  
Google研究员Kevin P. Murphy Machine learning: a probabilistic perspective,pdf github code  

full_stack

大神博客

案例及Demo

工具名 开闭源 作者 体验地址 总结 备注
IEPY 开源 - 文档, 工程完整,有用户管理系统。前端略重,对用户不是非常友好 安装失败
DeepDive 开源 stanford 前端代码,demo,失效, 前端比较简单,用户界面友好 汉化版:DeepDiveChineseApps,DeepDive_Chinese
BRAT 开源 - demo,git地址, 英文  
SUTDAnnotator 开源 - 论文 非web,pythonGUI,但比较轻量 -
Snorkel - - demo,论文    
Prodigy 闭源 spaCy同家公司Explosion.ai 示例, 支持模型加载+主动学习,体验不错,但要收费 -
标注精灵 闭源 国内 - 中文环境,收费  
标注客户端 开源 - - python开发,大而全 -
ImageNet的GUI标注工具 开源 - - 图像标注 -
Universal Data Tool 开源 国外 - 通用数据(标注)工具:用简单的网络界面/桌面应用协作标注图像、文本、文档等数据 安装失败
MarkTool 开源 个人 基于web的通用文本标注工具,支持大规模实体标注、关系标注、事件标注、文本分类、基于字典匹配和正则匹配的自动标注以及用于实现归一化的标准名标注,同时也支持文本的迭代标注和实体的嵌套标注  
Chinese-Annotator 开源     仿照Prodigy,主动学习,详情介绍 讨论区
label-studio 开源 - ,后端纯python编写,使用了flask,前端:React + MST 界面相对美观,部署方便,可以明晰了解任务的完成度,支持图像、文本和音频等多种数据格式和多种任务数据的标注,但速度慢,没有账号体系 介绍
doccano 开源   doccano demo, 代码一站式文本标注工具, 中文  
           

CNN

NLP自然语言处理&RNN

返回目录

RNN

论文探索

语音

对抗生成学习

VAE和GAN,VAE和GAN

强化学习

返回目录

迁移学习

知识图谱

数据挖掘

返回目录

人脸识别

IT资讯

返回目录

达克效应

工具

返回目录



  • 【20191012】免费API大全Github汇总free-api提供
  • 【2019-12-18】CMU:文言文写代码
  • 【2020-1-27】中国新型冠状病毒肺炎疫情地级市图github代码地址
  • 【2020-4-1】cookie+session+token的区别
  • 【2020-5-8】Photoshop在线版,手机电脑都能用
  • 【2020-5-8】项目管理软件[Trello(https://blog.trello.com/advanced-checklists),敏捷开发,任务分配,进度跟进。
  • 【2020-7-9】问卷调查工具:腾讯问卷
  • 【2020-10-15】为什么我们要从ES迁移到ClickHouse?
    • ElasticSearch 是一种基于 Lucene 的分布式全文搜索引擎,携程用 ES 处理日志,目前服务器规模 500+,日均日志接入量大约 200TB。
    • 随着日志量不断增加,一些问题逐渐暴露出来:
      • 一方面 ES 服务器越来越多,投入的成本越来越高。
      • 另一方面用户的满意度不高,日志写入延迟、查询慢甚至查不出来的问题一直困扰着用户。
    • 而从运维人员的角度看,ES 的运维成本较高,运维的压力越来越大。
    • 为什么选择 ClickHouse
  • ClickHouse 是一款高性能列式分布式数据库管理系统,我们对 ClickHouse 进行了测试,发现有下列优势:
    • ①ClickHouse 写入吞吐量大,单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 ES 的 5 倍以上。
    • ②在 ES 中比较常见的写 Rejected 导致数据丢失、写入延迟等问题,在 ClickHouse 中不容易发生。
    • ③查询速度快,官方宣称数据在 pagecache 中,单服务器查询速率大约在 2-30GB/s;没在 pagecache 的情况下,查询速度取决于磁盘的读取速率和数据的压缩率。经测试 ClickHouse 的查询速度比 ES 快 5-30 倍以上。
    • 其他优点见原文
  • 【2021-1-1】冰点下载:随意下载百度文库资料;文库下载器, 百度文档下载方法
  • pdf编辑
    • 在线编辑:① pdf 24 tools,合并,转图像,签名,文件格式转换, PDF 文本识别,通过OCR识别文本,并创建可搜索的PDF文件; ② smallpdf,7天免费
    • mac自带:finder里可以直接复制pdf文件,粘贴,实现简易提取功能 文库下载器失效,https://zhuanlan.zhihu.com/p/120295773,https://www.cxyhub.com/all/tool/2894/,软件下载网站:cxyhub.com
  • 【2021-2-18】chatroulettomegle两个外国随机视频聊天软件
  • 【2022-1-6】快闪ppt,模板库期末考试动员,打开书“马冬梅”,合上书“什么冬梅”?再打开书“啊,马冬梅”,再合上书“呃,马什么梅”?考试时“孙红雷”;B站视频快闪ppt:救救老师吧-百度文库地址
  • 【2022-12-9】下一代ppt工具:gamma powtoon beautiful.ai

实验评估

  • 第一种:<font color=#0099ff size=5 face=”黑体”>A/B-Test</font>. 什么是ab-test?
    • A/B Test,也称为对比测试,是让两个版本的登陆页面的相互pk测试。看看哪个版本能更好地引导访问者达到你的预设目标,如注册或订阅。
    • 工程实施:叫你如何对产品进行AB Test?,包含服务端、客户端如何实施ab-test,及各自的优缺点
  • ab-test有什么局限性?
    • 首先,A/B测试只有在关键效绩指标(KPI, or Key Performance Indicator)单一,且这个单一明确的目标可以被电脑量化时,适用
    • 其次,A/B测试相比起一些别的测试手段,如纸本原型(paper prototyping),需要的工作量大、时间长,对设计的要求也相对较高。
    • 另外,A/B测试之所以进行,唯一原因是对结果的追求。但相对应的测试结果通常是短期、即刻的用户行为,比如购买、注册、点击等。
    • 此外,A/B测试并不能提供用户行为的具体细节。A/B测试的结果也仅限于被测试的两个选项:如果12号字比16号字为你的网站带来多1%的用户浏览时间,那10号字呢?8号呢?A/B测试并不能帮助你作更多的、长远的决定。
    • A/B测试还有别的缺点:需要的用户人数大,可能的影响因素多,可以测试的选项数有很大限制等等。
  • 吆喝科技-ab-test最佳实践
  • 第二种:<font color=#0099ff size=5 face=”黑体”>interleaving</font>,参考美团分享的文章沈国阳:美团推荐系统整体框架与关键工作.
    • abtest的好处是可以对多个策略给出定量评估,坏处是:①策略差异小时,评估结果波动大②需要较长时间反馈,导致迭代速度慢
    • 改进:interleaving,所需流量小,灵敏度高(24h内),但只能给出定性结论。基本思想是将两个策略混合,对所有用户统计分析判断哪个好
    • 【2018-6-22】优质资源,多图解释Innovating Faster on Personalization Algorithms at Netflix Using Interleaving
  • 灰度发布和A/B Test

编程语言

返回目录

【2022-10-8】在线广播

【2022-12-27】影视剧资源

视频资源

返回目录

公开课


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Related Posts

标题:【读书笔记】- 大浪淘沙系列之生而贫穷 Be born poor

摘要:赵皓阳系列文章笔记,如《生而贫穷》,《毛泽东选集》等

标题:机器学习/深度学习 精简笔记-Deep Learning Summary

摘要:深度学习的精简笔记,便于快速回顾

Comments

--disqus--

    Content
    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天