kafkapython

1.如何使用python 连接kafka 并获取数据

连接 kafka 的库有两种类型,一种是直接连接 kafka 的,存储 offset 的事情要自己在客户端完成。还有一种是先连接 zookeeper 然后再通过 zookeeper 获取 kafka 的 brokers 信息, offset 存放在 zookeeper 上面,由 zookeeper 来协调。

我现在使用 samsa 这个 highlevel 库

Producer示例

from kazoo.client import KazooClientfrom samsa.cluster import Clusterzookeeper = KazooClient()zookeeper.start()cluster = Cluster(zookeeper)topic = cluster.topics['topicname']topic.publish('msg')

** Consumer示例 **

from kazoo.client import KazooClientfrom samsa.cluster import Clusterzookeeper = KazooClient()zookeeper.start()cluster = Cluster(zookeeper)topic = cluster.topics['topicname']consumer = topic.subscribe('groupname')for msg in consumer:

print msg

Tip

consumer 必需在 producer 向 kafka 的 topic 里面提交数据后才能连接,否则会出错。

在 Kafka 中一个 consumer 需要指定 groupname , groue 中保存着 offset 等信息,新开启一个 group 会从 offset 0 的位置重新开始获取日志。

kafka 的配置参数中有个 partition ,默认是 1 ,这个会对数据进行分区,如果多个 consumer 想连接同个 group 就必需要增加 partition , partition 只能大于 consumer 的数量,否则多出来的 consumer 将无法获取到数据。

2.如何编写python文件将oracle导入kafka

如何编写python文件将oracle导入kafka

MySQLdb只支持Python2.*,还不支持3.*

可以用PyMySQL代替。安装方法:pip install PyMySQL

然后在需要的项目中,把 __init__.py中添加两行:

import pymysql

pymysql.install_as_MySQLdb()

就可以用 import MySQLdb了。其他的方法与MySQLdb一样。

3.R,Python,Scala 和 Java,到底该使用哪一种大数据编程语言

如果你对晦涩的统计运算进行繁重的数据分析工作,那么你不青睐R才怪。

如果你跨GPU进行NLP或密集的神经网络处理,那么Python是很好的选择。如果想要一种加固的、面向生产环境的数据流解决方案,又拥有所有重要的操作工具,Java或Scala绝对是出色的选择。

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。

但通常来说,如今大数据方面有三种语言可以选择:R、Python和Scala,外加一直以来屹立于企业界的Java。那么,你该选择哪种语言?为何要选择它,或者说何时选择它?下面简要介绍了每种语言,帮助你做出合理的决定。

R R经常被称为是“统计人员为统计人员开发的一种语言”。如果你需要深奥的统计模型用于计算,可能会在CRAN上找到它――你知道,CRAN叫综合R档案网络(Comprehensive R Archive Network)并非无缘无故。

说到用于分析和标绘,没有什么比得过ggplot2。而如果你想利用比你机器提供的功能还强大的功能,那可以使用SparkR绑定,在R上运行Spark。

然而,如果你不是数据科学家,之前也没有用过Matlab、SAS或OCTAVE,可能需要一番调整,才能使用R来高效地处理。虽然R很适合分析数据,但是就一般用途而言不太擅长。

你可以用R构建模型,但是你需要考虑将模型转换成Scala或Python,才能用于生产环境,你不太可能使用这种语言编写一种集群控制系统(运气好的话,你可以对它进行调试)。Python 如果你的数据科学家不使用R,他们可能就会彻底了解Python。

十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。

同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。

这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。

比如说,Spark中的新功能几乎总是出现在Scala/Java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而初次接触R或Scala会让人心生畏惧。

一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营,一派觉得“这非常有助于确保可读性”,另一派则认为,2016年,我们应该不需要就因为一行代码有个字符不在适当的位置,就要迫使解释器让程序运行起来。

Scala 现在说说Scala:在本文介绍的四种语言中,Scala是最轻松的语言,因为大家都欣赏其类型系统。Scala在JVM上运行,基本上成功地结合了函数范式和面向对象范式,目前它在金融界和需要处理海量数据的公司企业中取得了巨大进展,常常采用一种大规模分布式方式来处理(比如Twitter和LinkedIn)。

它还是驱动Spark和Kafka的一种语言。由于Scala在JVM里面运行,它可以立即随意访问Java生态系统,不过它也有一系列广泛的“原生”库,用于处理大规模数据(尤其是Twitter的Algebird和Summingbird)。

它还包括一个使用非常方便的REPL,用于交互式开发和分析,就像使用Python和R那样。我个人非常喜欢Scala,因为它包括许多实用的编程功能,比如模式匹配,而且被认为比标准的Java简洁得多。

然而,用Scala来开发不止一种方法,这种语言将此作为一项特色来宣传。这是好事!不过考虑到它拥有图灵完备(Turing-complete)的类型系统和各种弯弯曲曲的运算符(“/:”代表foldLeft,“:\”代表foldRight),很容易打开Scala文件,以为你看到的是某段讨厌的Perl代码。

这就需要在编写Scala时遵循一套好的实践和准则(Databricks的就很合理)。另一个缺点是,Scala编译器运行起来有点慢,以至于让人想起以前“编译!”的日子。

不过,它有REPL、支持大数据,还有采用Jupyter和Zeppelin这一形式的基于Web的笔记本框架,所以我觉得它的许多小问题还是情有可原。Java 最终,总是少不了Java――这种语言没人爱,被遗弃,归一家只有通过起诉谷歌才有钱可赚时才似乎关心它的公司(注:Oracle)所有,完全不时髦。

只有企业界的无人机才使用Java!不过,Java可能很适合你的。

4.Java和Python哪个更有用

java和Python都是编程语言,没有好坏之分和哪个更有用之说。下面蜗牛学院就来谈谈两者的区别:

一、入门难度

Python 比Java 更加简单易学,比如,读写一个相同的文件,如果Java需要十行的代码,而在 Python 中只要两行就可以达到效果。Python的语法简洁清晰,语法接近英语,开发环境简单,适合新手入门学习;Java则需要一定的逻辑思维能力,并且Java基础语法需要学习的东西也比较多。跟python相比,java前期的入门学习可能会有一定的难度,但后期两者难度相当。

二、学完可以做什么

学习了Python语言之后可以做后端开发、Web开发、网络爬虫、数据挖掘、人工智能、机器学习、数据分析、桌面应用、自动化测试、自动化运维等等。

学习完java语言后可以做网站、Android、游戏开发、软件开发、嵌入式、大数据等等。

三、就业前景

自2002年起,历年世界编程语言排行榜——TIOBE排行榜,Java常年位居世界第一,Python则在2016年排在第五位。Python在国外应用相对成熟,在国内还处于起步阶段,近两年,随着人工智能、机器学习、大数据以及云计算的兴起,Python发展势如破竹,很多企业开始进入该行列,Python人才的需求量也在不断上升,但相对于发展较为成熟的ava来说,需求量还是较少。且目前Python就业岗位主要集中在一二线城市,java则覆盖面更广。

具体选择哪门语言进行学习,看题主自己的定位和需求,可以两样都试学一下,看自己更适合哪方面,对哪方面更感兴趣。

5.Python最近是不是很火啊,我看学的人挺多的,这是什么语言啊

先介绍一下 Python :

Python(KK 英语发音:/ˈpaɪθən/,是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简捷而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够很轻松的把用其他语言制作的各种模块(尤其是C/C++)轻松地联结在一起。常见的一种应用情形是,使用python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,速度要求非常高,就可以用C++重写。

现在它的确是比较火的,视频教程的资料,我就有,你看看:

/s/python/

学好Python还可以电脑高手的那中黑客,挺不错的。

kafkapython

转载请注明出处代码入门网 » kafkapython

资讯

python文件引用

阅读(13)

本文主要为您介绍python文件引用,内容包括python怎么引用其他文件的类,Python里如何引用文件,怎么引用另一个python文件。在导入文件的时候,Python只搜索当前脚本所在的目录,加载(entry-point)入口脚本运行目录和sys.path中包含的路径例如

资讯

pythoncsv写入文件

阅读(13)

本文主要为您介绍pythoncsv写入文件,内容包括python怎么写入csv文件,python怎么写入csv文件,csv文件怎么打开使用Python读取和写入CSV文件。import pandas as pd#任意的多组列表a = [1,2,3]b = [4,5,6] #字典中的key值即为csv中列名d

资讯

pythonforitems

阅读(13)

本文主要为您介绍pythonforitems,内容包括python中怎么运行for循环,python中for循环放在后面要怎么理解,在python中fork,vinsubDict:listDict[k]=v这段代码是什么意思主要。i 等于9 因为闭包,lambda生成之后i引用的就是for循环中的i 建议你

资讯

python文件函数

阅读(15)

本文主要为您介绍python文件函数,内容包括如何直接执行一个Python文件的内置函数,python如何调用.py文件的函数,python常用的系统函数。【python】如何在某.py文件中调用其他.py内的函数 假设名为A.py的文件需要调用B.py文件内的C(x,y)函数

资讯

python爬虫教程

阅读(13)

本文主要为您介绍python爬虫教程,内容包括如何入门Python爬虫,如何用最简单的Python爬虫采集整个网站,python爬虫入门需要哪些基础。从爬虫必要的几个基本需求来讲: 1.抓取 py的urllib不一定去用,但是要学,如果还没用过的话。 比较好的替代品

资讯

perl和python

阅读(13)

本文主要为您介绍perl和python,内容包括perl和python选哪个,Perl与Python的区别和优缺点到底在哪,python和perl有什么区别。就 语法来看,Python比Perl优美得多。Perl里面充满了像$!和$_这类的天书标记,初学的时候每读一段代码,就会碰到几个从来

资讯

python引用文件

阅读(15)

本文主要为您介绍python引用文件,内容包括python怎么引用其他文件的类,Python里如何引用文件,python引用别的文件类。在导入文件的时候,Python只搜索当前脚本所在的目录,加载(entry-point)入口脚本运行目录和sys.path中包含的路径例如

资讯

python非空

阅读(11)

本文主要为您介绍python非空,内容包括python中怎样判断一个dataframe非空,python中怎样判断一个dataframe非空,python怎么判断读到得内容不为空。DataFrame有一个属性为empty,直接用DataFrame.empty判断就行。例如,copy你的DataFrame为test_

资讯

python3程序

阅读(12)

本文主要为您介绍python3程序,内容包括python3是什么东西,python的程序怎么运行,用python3的方式按此图写一个小程序。for i in range(6):for j in range(i):print("*",end=" ")for k in range

资讯

pythonwindows调用

阅读(12)

本文主要为您介绍pythonwindows调用,内容包括如何在PYTHON中调用windows的可执行文件,如何在PYTHON中调用windows的可执行文件,python可以在windows使用吗。在windows cmd下运行python,需要设置环境变量,不设环境变量是不能在cmd下运行python

资讯

python运行cmd

阅读(13)

本文主要为您介绍python运行cmd,内容包括怎么用cmd运行python,cmd中运行python,Python运行cmd命令os.system('notepad')提示'notepad'不是内部或外。用cmd运行python程序步骤:(1)打开cmd。

资讯

python读取word

阅读(12)

本文主要为您介绍python读取word,内容包括如何用python读取word,python如何读取word文件,python读取word文档内容。使用Python的内部方法open()读取文本文件try:f=open(/file,r)print(f.read())finally:i

资讯

python调用类的方法

阅读(12)

本文主要为您介绍python调用类的方法,内容包括python如何调用类的方法,Python的类怎么调用其他类的方法,python如何调用其他文件的类和方法。使用方法:class A(object): def foo(self,x): #类实例方法 print "executing foo(%

资讯

python开发教程

阅读(10)

本文主要为您介绍python开发教程,内容包括如何快速入门python,Python基础教程怎么学习看不懂,如何编写第一个python程序。Python入门到精通学习书籍推荐!Python基础教程(第2版 修订版)《Python基础教程(第2版修订版)》包括Python程序设

资讯

python黑客绝技

阅读(2)

本文主要为您介绍python黑客绝技,内容包括黑客们会用到哪些Python技术,我想成为一名黑客,我在学python,可是里面讲的多是游戏设计,能否,黑客们会用到哪些Python技术。学习是循序渐进的过程最常见的有两本python和黑客相关的书《python灰帽

资讯

python开发什么软件

阅读(2)

本文主要为您介绍python开发什么软件,内容包括python能用来开发什么软件,开发python用什么软件,Python可以开发哪些程序。Python开发软件可根据其用途不同分为两种,一种是Python代码编辑器,一种是Python集成开发工具,两者的配合使用可以极大的

资讯

python正则匹配url

阅读(2)

本文主要为您介绍python正则匹配url,内容包括请问如何使用python的正则表达式提取url链接,请问如何使用python的正则表达式提取url链接,怎么写url的python正则表达式。1.测试正则表达式是否匹配字符串的全部或部分regex=ur"" #正则表达式if r

资讯

pythonstrtobyte

阅读(2)

本文主要为您介绍pythonstrtobyte,内容包括python怎么将字符串转换为byte,pythonstr和byte的区别,python2.7.3中怎么将str转为bytes。public class Test { public static void main(String[] args) { //1. By

资讯

jointhreadpython

阅读(2)

本文主要为您介绍jointhreadpython,内容包括python线程join什么意思,pythonthreading一定要join吗,如何在python多线程join挂起后还能在主线程。Join的作用是众所周知的,阻塞进程直到线程执行完毕。通用的做法是我们启动一批线程,最后join这

资讯

vs2013python

阅读(2)

本文主要为您介绍vs2013python,内容包括vs2013怎么进行Python编程,vs2013怎么进行Python编程,visualstudio2013为什么支持python。方法/步骤1电脑上安装微软公司的VS2013,可以从dreamspark 上下载正版或通过其他途径获得,安装即可。2打开VS20

资讯

houdinipython

阅读(2)

本文主要为您介绍houdinipython,内容包括学习Houdini必须会python吗,学习houdini到底要不要掌握python,学习houdini到底要不要掌握python。Houdini应该不错。不过似乎某个rendering(名子不记得了),应该与python的集成更好。python是一个通用语

资讯

vimpythonide

阅读(2)

本文主要为您介绍vimpythonide,内容包括如何将vim变成一个强大的pythonide,在linux下面做python程序开发,用什么ide好,在linux下面做python程序开发,用什么ide好大家在用哪个工具。可以理解题主的需求,做机器学习的时候经常需要看具体代码,通

资讯

python大文件处理

阅读(2)

本文主要为您介绍python大文件处理,内容包括内存不足时,python如何处理大文件,python对文件进行处理,如何用python最快的获取大文件的最后几行。工作中经常会遇到处理日志文件的问题:为了得到日志的最新状态,我们需要获取日志文件的最后部分

资讯

python写出csv

阅读(1)

本文主要为您介绍python写出csv,内容包括python怎么写入csv文件,python怎么写入csv文件,如何用python读写csv。import pandas as pd#任意的多组列表a = [1,2,3]b = [4,5,6] #字典中的key值即为csv中列名d