神经网络简史:
人工神经网络简单来说,就是在输入层和输出层中间加入多个隐层,实现多层神经元信号处理。它是一种从底层构建的思路。
深度学习框架很多,不需要纠结使用哪种框架:
Docker 是什么?它是一种容器化技术的实现,可以理解为一个轻量级的虚拟环境。
之前 00 被 Python 的版本和各种包虐过,所以折腾了 Virtualenv 的方法,一个项目新建一个 Python 环境。那么 Docker 跟 Virtualenv 的区别是什么呢?
Docker completely isolates the TensorFlow installation from pre-existing packages on your machine. The Docker container contains TensorFlow and all its dependencies.
Docker 有一个 Image 的概念,可以理解为别人已经制作好的环境(类似安卓手机装机软件),把 Python + TensorFlow + Jupyter Notebook 打包好。
第一步:下载 Docker Community Edition for Mac 安装。
用 docker version 可以查看版本:
- kidults-NMB:~ kidult$ docker version
- Client:
- Version: 17.03.0-ce
- API version: 1.26
- Go version: go1.7.5
- Git commit: 60ccb22
- Built: Thu Feb 23 10:40:59 2017
- OS/Arch: darwin/amd64
- Server:
- Version: 17.03.0-ce
- API version: 1.26 (minimum version 1.12)
- Go version: go1.7.5
- Git commit: 3a232c8
- Built: Tue Feb 28 07:52:04 2017
- OS/Arch: linux/amd64
- Experimental: true
使用 Docker 时,命令行相当于客户端,服务器端在安装完成后需要启动。
第二步:到 Docker hub 找到 TensorFlow Image ,以此为模板构建自己的容器。参考 Using TensorFlow via Docker ,用 run 命令加载 TensorFlow image:
- docker run -it -p 8888:8888 tensorflow/tensorflow
开始下载后,发现速度非常慢:
参考小伙伴的 Docker Hub Mirror 加速 Docker 官方镜像下载 笔记,使用镜像下载。在 Mac 上配置 加速器 很简单,右键点击桌面顶栏的 docker 图标,选择 Preferences ,在 Advanced 标签下的 Registry mirrors 列表中加入镜像地址:
,点击 Apply & Restart 按钮使设置生效。
- http://d43d99f5.m.daocloud.io Copy
[图片上传失败...(image-2f77b8-1514373897671)]
再次运行
,速度飞了起来~
- docker run -it -p 8888:8888 tensorflow/tensorflow
下载成功后,可以在浏览器看到 Jupyter Notebook 界面:
[图片上传失败...(image-efb350-1514373897671)]
- docker run -it -p 8888:8888 -v 原路径:目标路径 tensorflow/tensorflow
- kidults-NMB:my_venv kidult$ docker ps -a
- CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
- f4eaa7828ac5 tensorflow/tensorflow "/run_jupyter.sh" 7 minutes ago Up About a minute 6006/tcp, 0.0.0.0:8888->8888/tcp priceless_mccarthy
- b09563e0479b tensorflow/tensorflow "/run_jupyter.sh" 52 minutes ago Exited (0) 7 minutes ago silly_chandrasekhar
- d669d764de48 tensorflow/tensorflow "/run_jupyter.sh" About an hour ago Exited (0) 52 minutes ago relaxed_davinci
(重命名为 dl)
- docker rename CONTAINER ID XXX
参考 junjielizero 同学的笔记 ,优化了几个步骤:
- docker run - it - p 8888 : 8888 - v~ / Workspace / DeepLearning101 / :/Workspace/DeepLearning101 - w / Workspace / DeepLearning101 tensorflow / tensorflow
- alias dsdl="docker start -i dl"
统计 happiness.txt 的词频
思路:读取文件 → 用 jieba 分词 → 清除非中文字符 → 用 counter 计数 → 用 sorted 排序
- loadfile = open('happiness.txt', 'r')
- text = loadfile.read().decode('utf-8')
- loadfile.close()
- words = jieba.cut(text)
re.match(pattern, string, flags=0)
If zero or more characters at the beginning of string match the regular expression pattern, return a corresponding MatchObject instance. Return None if the string does not match the pattern.
- for word in words:
- if re.match(u'([\u4e00-\u9fff]+)', word):
- segments.append(word)
collections.Counter([iterable-or-mapping])
A Counter is a dict subclass for counting hashable objects. It is an unordered collection where elements are stored as dictionary keys and their counts are stored as dictionary values.sorted 用法
sorted(iterable[, cmp[, key[, reverse]]])
Return a new sorted list from the items in iterable.
cmp specifies a custom comparison function of two arguments which should return a negative, zero or positive number depending on whether the first argument is considered smaller than, equal to, or larger than the second argument: cmp=lambda x,y: cmp(x.lower(), y.lower()). The default value is None.lambda 表达式用法 通常在需要一个函数但是又不想命名一个函数时使用,即匿名函数。比如实现一个可以求 list 中所有元素和的函数:
在这里,用 Counter 统计字典中词的出现次数,以 lambda 取字典中的 value 值(key 是 x[0],value 就是 x[1])用 sorted 方法按降序排序:
- from functools import reduce
- l = [1,2,3,5,-9,0,45,-99]
- reduce(lambda x,y:x+y,l)
- sorted_list = sorted(Counter(dict).items(), key = lambda x: x[1], reverse = True)
最后,完整的代码和结果如下:
- # -*- coding: utf-8 -*-
- import jieba # for spliting
- import re # for regular expression
- from collections import Counter # for stat
- # Read file
- loadfile = open('happiness.txt', 'r')
- text = loadfile.read().decode('utf-8')
- loadfile.close()
- # Split words into a dict
- dict = []
- words = jieba.cut(text)
- for word in words:
- if re.match(u'([\u4e00-\u9fff]+)', word):
- dict.append(word)
- # Sort the list
- sorted_list = sorted(Counter(dict).items(), key=lambda x:x[1], reverse=True)
- # Print result
- for i in sorted_list[:10]:
- print " '%s' : %d " % (i[0], i[1])
结果:
- '的' : 22848
- '是' : 4123
- '在' : 3538
- '他' : 2522
- '了' : 2288
- '人' : 2089
- '他们' : 1811
- '和' : 1746
- '有' : 1478
- '我' : 1433
来源: http://www.jianshu.com/p/bf5274f294ce