持续更新。
--------------------C++篇------------------------
- 分布计算提高效率的库及库函数,比如FB的folly库就有folly::gen一大堆函数,e.g.
auto results = from(ids) | get<0>() | as<vector>();
本质上和e.g.Pyspark的分布式计算的底层思想是一致的。
--------------------Python篇-----------------------
- Python特别适用于搭data pipeline,比如FB的Dataswarm repo(用于run hive&presto tasks)和在Zillow用的Pyspark,其实根本上都是用了Python的脚本特性,串联起tasks来。
- dict的4种常见操作
增:d['key1'] = 4
删:d.pop('key1')
找key:if 'key1' in d
get值:d.get('key1') -
subprocess:
Popen, e.g.process = Popen(['cat', 'test.py'], stdout=PIPE, stderr=PIPE)
相当于执行了cat test.py这个命令
然后可以用communicate函数来read,e.g. stdout, stderr = process.communicate(); print stdout -
yield & generators
e.g.def foo(): for i in range(0,100): yield i*i generator = foo() for i in generator: print(i)
- eee
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。