Hive自定义函数udf实例

Hive进行UDF开发

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。

Hive的UDF开发只需要重构UDF类的evaluate函数即可。

例：[java]view plaincopy1.package com.sohu.hive.udf;2.3.import org.apache.hadoop.hive.ql.exec.UDF;4.5.public class Md5 extends UDF {6.public String evaluate(String str) {7.8.try {9.10.return MD5Util.getMD5Str(str).substring(0, 7);11.12. } catch (Exception e) {13. e.printStackTrace();14.return str;15.16. }17.18. }19.}将该java文件编译成md5.jar[sql]view plaincopy1.hive> add jar md5.jar;2.3.hive> create temporary function md5as 'com.sohu.hive.udf.Md5';4.5.hive> select md5(url) from focuspvlog limit 2;6.7.hive> drop temporary function md5;注：1.md5为临时的函数，所以每次进入hive都需要add jar以及create temporary操作2.UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAFhive 支持UDF，UDAF，UDTF，这几个让你使用hive 更加便捷。

UDFudf 就是一个自定义的function，输入一个或多个参数，返回一个返回值，类似substr/trim 之类。

genericudf 与普通的udf 函数

genericudf 与普通的udf 函数标题：深入理解GenericUDF与普通UDF函数的区别与应用在大数据处理和分析中，用户定义的函数（User Defined Function，简称UDF）扮演着至关重要的角色。

它们允许开发者根据特定的需求定制数据处理逻辑，极大地提升了数据处理的灵活性和效率。

在Hadoop生态系统中，主要有两种类型的UDF：普通UDF和GenericUDF。

本文将详细解析这两种UDF的区别，并通过实例一步步展示其应用。

一、普通UDF普通UDF是Hive中最基本的自定义函数类型。

它主要用于处理单个数据行或列，并返回一个单一的结果。

普通UDF需要开发者实现evaluate()方法，该方法接受一个或多个参数，并返回一个结果。

以下是一个简单的普通UDF示例，该函数接收一个字符串参数并返回其长度：javaimport org.apache.hadoop.hive.ql.exec.UDF;public class StringLengthUDF extends UDF {public int evaluate(String str) {if (str == null) {return 0;}return str.length();}}在这个例子中，我们定义了一个名为StringLengthUDF的类，它继承了UDF基类。

然后我们实现了evaluate()方法，该方法接受一个字符串参数，并返回其长度。

二、GenericUDF相比于普通UDF，GenericUDF提供了更大的灵活性和可扩展性。

GenericUDF可以处理多种数据类型，并且可以返回复杂的数据结构。

在GenericUDF中，开发者需要实现initialize()、getReturnType()和evaluate()方法。

以下是一个简单的GenericUDF示例，该函数接收两个整数参数并返回它们的和：javaimport org.apache.hadoop.hive.ql.udf.generic.GenericUDF; importorg.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; importorg.apache.hadoop.hive.serde2.objectinspector.primitive.Primitive ObjectInspectorFactory;importorg.apache.hadoop.hive.serde2.objectinspector.primitive.IntObjectI nspector;public class AddUDF extends GenericUDF {private IntObjectInspector intOI1;private IntObjectInspector intOI2;Overridepublic ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {if (arguments.length != 2) {throw new UDFArgumentException("AddUDF accepts exactly 2 arguments");}if (!(arguments[0] instanceofIntObjectInspector) !(arguments[1] instanceof IntObjectInspector)) {throw new UDFArgumentException("Both arguments should be of int type");}this.intOI1 = (IntObjectInspector) arguments[0];this.intOI2 = (IntObjectInspector) arguments[1];returnPrimitiveObjectInspectorFactory.javaIntObjectInspector;}Overridepublic Object evaluate(DeferredObject[] arguments) throws HiveException {int arg1 = intOI1.get(arguments[0].get());int arg2 = intOI2.get(arguments[1].get());return arg1 + arg2;}Overridepublic String getDisplayString(String[] children) {return "add(" + children[0] + ", " + children[1] + ")";}}在这个例子中，我们定义了一个名为AddUDF的类，它继承了GenericUDF基类。

hive项目实训案例

hive项目实训案例Hive是一个基于Hadoop的数据仓库工具，用于处理和分析大数据。

以下是几个Hive项目实训案例，可以帮助你深入了解Hive的应用和实践：1. 数据仓库建模在这个案例中，你将使用Hive构建一个数据仓库模型，其中包括事实表、维度表和桥接表。

你可以使用一个现有的数据集，如电商交易数据，将其导入到Hive中，并使用Hive的DDL语句创建表和分区。

然后，你可以使用Hive的SQL查询语句进行数据分析，例如计算销售额、订单数量等指标。

2. 数据清洗和转换在这个案例中，你将使用Hive进行数据清洗和转换。

你可以使用Hive的内置函数和UDF（用户自定义函数）对数据进行处理，例如去除重复记录、填充缺失值、转换数据类型等。

然后，你可以将处理后的数据导出到另一个数据存储系统，例如关系型数据库或数据湖。

3. 数据分析和可视化在这个案例中，你将使用Hive进行数据分析和可视化。

你可以使用Hive的SQL查询语句对数据进行聚合、过滤和连接操作，例如计算销售额的分布、找出购买最多的商品等。

然后，你可以将分析结果导出到Excel或其他可视化工具中进行展示。

4. 数据挖掘和机器学习在这个案例中，你将使用Hive进行数据挖掘和机器学习。

你可以使用Hive 的MLlib库进行分类、聚类、回归等机器学习算法的实现。

然后，你可以将训练好的模型导出到另一个系统进行部署和应用。

以上是几个Hive项目实训案例，可以帮助你深入了解Hive的应用和实践。

通过这些案例的学习和实践，你可以更好地掌握Hive的使用方法和技巧，提高你的大数据处理和分析能力。

hive创建自定义函数

hive默认的函数并不是太完整，以后我们使用的使用肯定需要自己补充一些。

下面这个例子是个简单的测试，关于自定义函数的。

函数代码package com.example.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public final class Lower extends UDF {public Text evaluate(final Text s) {if (s == null) { return null; }return new Text(s.toString().toLowerCase());}}打包javac -d Lower Lower.javajar -cvf Lower.jar -C Lower/ .在hive中添加包hive> add jar /home/hjl/sunwg/Lower.jar;Added /home/hjl/sunwg/Lower.jar to class path在hive中创建函数hive> create temporary function my_lower as …com.example.hive.udf.Lower‟;OKTime taken: 0.407 seconds使用函数hive> select my_lower(name) from test10;上面介绍了HIVE中的自定义函数，有一些函数是比较基础的，公用的，每次都要create temporary function不免太麻烦了。

这样的基础函数需要直接集成到hive中去，避免每次都要创建。

1,添加函数文件$HIVE_HOME/src/ql/src/java/org/apache/hadoop/hive/ql/udf/UDFSunwg.javapackage org.apache.hadoop.hive.ql.udf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;public final class UDFSunwg extends UDF {public Text evaluate(final Text s) {if (s == null) { return null; }return new Text(s.toString().concat(“sunwg”).toLowerCase());}}2,将函数sunwg注册到hive的函数列表中修改$HIVE_HOME/src/ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java 文件import org.apache.hadoop.hive.ql.udf.UDFSunwg;registerUDF(“sunwg”, UDFSunwg.class,false);3,测试函数sunwghive> select sunwg(“abc”) from sunwg00 limit 1;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there‟s no reduce operatorStarting Job = job_201104091858_381437, Tracking URL =http://hdpjt:50030/jobdetails.jsp?jobid=job_201104091858_381437Kill Command = /home/dwapp/hadoop/bin/../bin/hadoopjob -Dmapred.job.tracker=hdpjt:9001 -kill job_201104091858_3814372011-04-21 16:01:28,733 Stage-1 map = 0%, reduce = 0%2011-04-21 16:01:34,123 Stage-1 map = 50%, reduce = 0%2011-04-21 16:01:35,543 Stage-1 map = 100%, reduce = 0%Ended Job = job_201104091858_381437OKabcsunwgTime taken: 48.53 seconds总结：在hive中添加函数是如此的简单，建议将公共的基础函数添加到hive中，而一些个性化的函数还是创建临时函数create temporary function IS_DATE as 'com.ruyicai.hive.udf.IsDate';create temporary function nvl as 'com.ruyicai.hive.udf.Nvl';add jar /root/isdate-0.0.1-SNAPSHOT.jar;add jar /root/nvl-0.0.1-SNAPSHOT.jar;。

自定义udf函数解析嵌套json数组

自定义udf函数解析嵌套json数组在进行数据分析时，我们经常会遇到一些嵌套的JSON数组。

如果我们想要对这些数据进行分析，并且使用SQL语言进行查询和分析，我们通常需要自定义UDF函数来解析这些嵌套的JSON数组。

首先，我们需要了解UDF函数是什么。

UDF函数是一种用户自定义的函数，可以在SQL中使用。

它可以接收一个或多个参数，并返回一个结果。

在解析嵌套的JSON数组时，我们需要使用UDF函数来将JSON数组转换为关系型数据。

我们可以使用Python或Java等编程语言来编写UDF函数。

例如，在Python中，我们可以使用json模块来解析JSON数据。

下面是一个示例UDF函数，它可以将嵌套的JSON数组解析为关系型数据：```pythonimport jsondef parse_json_array(json_str):json_obj = json.loads(json_str)result = []for obj in json_obj:row = {}for key, value in obj.items():if isinstance(value, list):row[key] = json.dumps(value)else:row[key] = valueresult.append(row)return json.dumps(result)```这个函数接收一个JSON字符串作为参数，并将其解析为一个列表。

然后，它遍历列表中的每个对象，并将其转换为一个字典，其中键是JSON属性的名称，值是JSON属性的值。

如果属性的值是一个JSON数组，它会将其转换为一个字符串，并将其放入字典中。

最后，它将所有的字典放入一个列表中，并将整个列表转换为一个JSON字符串。

在使用这个UDF函数时，我们需要将其注册到SQL中。

例如，在Hive中，我们可以使用以下命令来注册UDF：```sqlADD JAR /path/to/udf.jar;CREATE TEMPORARY FUNCTION parse_json_array AS'com.example.udf.ParseJsonArray';```在注册了UDF函数之后，我们可以在SQL中使用它来解析嵌套的JSON数组。

hive3 udf函数编写

hive3 udf函数编写Hive是一个用于数据仓库和大数据分析的开源数据仓库工具，它是基于Hadoop的一个数据仓库基础架构，提供类似于SQL的查询语言HiveQL，使得开发人员可以使用常见的SQL语言来处理分布式存储中的大数据。

在Hive中，用户自定义函数（User-Defined Functions，UDFs）可以用于扩展HiveQL语言的功能，使得开发人员可以根据自己的需求编写自定义的函数。

本文将讨论在Hive3中编写UDF函数的方法和步骤。

首先，我们需要了解Hive的UDF函数的分类。

Hive的UDF函数可以分为以下几类：1. 标量函数（Scalar Functions）：接受一些输入参数，并返回一个单一的输出结果。

例如，将一个字符串转换为大写或者将两个数字相加。

2. 聚合函数（Aggregate Functions）：接受一组输入值，并返回一个聚合结果。

例如，计算平均值或求和。

3. 表生成函数（Table Generating Functions）：接受一些输入参数，并生成一个输出表。

接下来，我们将以一个简单的示例来演示如何编写Hive3的UDF函数。

假设我们有一个包含员工姓名和薪水的表格，我们想要创建一个函数来计算员工薪水的增长百分比。

首先，我们需要创建一个新的Java类来实现我们的UDF函数。

这个类需要继承Hive的UDF类，并且重写evaluate()方法。

```import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;@Description(name = "salary_growth_percentage",value = "Calculates the growth percentage of an employee's salary",extended = "SELECT salary_growth_percentage(salary) FROM employees")@UDFType(deterministic = true, stateful = false)public class SalaryGrowthPercentage extends UDF {public Double evaluate(Double currentSalary, Double previousSalary) {if (currentSalary == null || previousSalary == null) {return null;}double growthPercentage = (currentSalary - previousSalary) / previousSalary * 100;return growthPercentage;}}```在上述代码中，我们创建了一个名为SalaryGrowthPercentage的类，它继承自Hive的UDF类。

hive udf函数例子

hive udf函数例子Hive中的UDF（User-Defined Functions）是用户自定义的函数，用于对Hive中的数据进行自定义操作和处理。

UDF可以是一元函数（接受一个输入参数并返回一个值）或者多元函数（接受多个输入参数并返回一个值）。

下面我将举例说明Hive中UDF函数的用法。

首先，我们可以创建一个简单的UDF函数来实现字符串的反转。

假设我们需要一个UDF函数来反转给定的字符串，我们可以按照以下步骤创建UDF函数：1. 创建一个Java类，实现Hive的UDF接口，并重写evaluate方法来定义函数的逻辑。

以下是一个简单的示例代码：java.import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class ReverseStringUDF extends UDF {。

public Text evaluate(Text input) {。

if (input == null) return null;return new Text(newStringBuilder(input.toString()).reverse().toString());}。

}。

2. 编译这个Java类并将生成的JAR文件添加到Hive的classpath中。

3. 在Hive中注册这个UDF函数，例如：sql.ADD JAR /path/to/your/jar/udf.jar;CREATE TEMPORARY FUNCTION reverse_string AS'ReverseStringUDF';4. 现在我们就可以在Hive中使用这个UDF函数了，例如：sql.SELECT reverse_string('hello') FROM your_table;这样就可以实现对字符串进行反转的操作。

自定义udf函数解析嵌套json数组

自定义udf函数解析嵌套json数组如何使用自定义UDF函数解析嵌套JSON数组为标题在数据处理中，JSON格式的数据已经成为了一种非常常见的数据格式。

而在JSON数据中，有时候会出现嵌套的数组，这就给数据的处理带来了一定的难度。

本文将介绍如何使用自定义UDF函数解析嵌套JSON数组为标题。

我们需要了解什么是UDF函数。

UDF函数是用户自定义函数的缩写，是一种自定义函数，可以根据自己的需求编写函数，以实现特定的功能。

在Hive中，UDF函数可以用来处理各种数据类型，包括字符串、数字、日期等。

接下来，我们需要了解如何解析嵌套JSON数组。

在Hive中，我们可以使用get_json_object函数来解析JSON数据。

但是，当JSON数据中存在嵌套的数组时，get_json_object函数就无法解析了。

这时，我们就需要使用自定义UDF函数来解析嵌套的JSON数组。

下面是一个示例JSON数据：{"name": "John","age": 30,"address": {"street": "123 Main St","city": "New York","state": "NY","zip": "10001"},"phone_numbers": [{"type": "home","number": "555-555-1234"},{"type": "work","number": "555-555-5678"}]}在这个JSON数据中，phone_numbers是一个嵌套的数组。

Hive自定义函数（UDF、UDAF）

Hive⾃定义函数（UDF、UDAF）当Hive提供的内置函数⽆法满⾜你的业务处理需要时，此时就可以考虑使⽤⽤户⾃定义函数。

###UDF⽤户⾃定义函数（user defined function)–针对单条记录。

创建函数流程1、⾃定义⼀个Java类2、继承UDF类3、重写evaluate⽅法4、打成jar包6、在hive执⾏add jar⽅法7、在hive执⾏创建模板函数8、hql中使⽤Demo01:⾃定义⼀个Java类package UDFDemo;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFTest extends UDF{public boolean evaluate(){return true;}public boolean evaluate(int b){//int b=Integer.parseInt(a);if(b<0){return false;}if(b%2==0){return true;}else {return false;}}public boolean evaluate(String a){int b=Integer.parseInt(a);if(b<0){return false;}if(b%2==0){return true;}else {return false;}}public boolean evaluate(Text a){int b=Integer.parseInt(a.toString());if(b<0){return false;}if(b%2==0){if(b%2==0){return true;}else {return false;}}public boolean evaluate(Text t1,Text t2){//public boolean evaluate(String t1, String t2){if(t1==null || t2 ==null){return false;}double d1 = Double.parseDouble(t1.toString());double d2 = Double.parseDouble(t2.toString());/* double d1 = Double.parseDouble(t1);double d2 = Double.parseDouble(t2);*/if(d1>d2){return true;}else{return false;}}public boolean evaluate(String t1, String t2){if(t1==null || t2 ==null){return false;}double d1 = Double.parseDouble(t1);double d2 = Double.parseDouble(t2);if(d1>d2){return true;}else{return false;}}}打成jar包UDFTest.jar在hive执⾏add jar⽅法在hive创建⼀个bigthan的函数，引⼊的类是UDF.UDFTestadd jar /liguodong/UDFTest.jar;create temporary function bigthan as 'UDFDemo.UDFTest';select no,num,bigthan(no,num) from testudf;###UDAFUDAF(user defined aggregation function)⽤户⾃定义聚合函数，针对记录集合开发UDAF通⽤有两个步骤第⼀个是编写resolver类，resolver负责类型检查，操作符重载。

Hive自定义UDF函数

Hive⾃定义UDF函数Hive的SQL可以通过⽤户定义的函数（UDF），⽤户定义的聚合（UDAF）和⽤户定义的表函数（UDTF）进⾏扩展。

当Hive提供的内置函数⽆法满⾜你的业务处理需要时，此时就可以考虑使⽤⽤户⾃定义函数（UDF）。

UDF、UDAF、UDTF的区别：UDF（User-Defined-Function）⼀进⼀出UDAF（User-Defined Aggregation Funcation）聚集函数，多进⼀出UDTF（User-Defined Table-Generating Functions）⼀进多出，如lateral view explore()⽤户⾃定义函数（user defined function)，针对单条记录。

编写⼀个UDF，需要继承UDF类，并实现evaluate()函数。

在查询执⾏过程中，查询中对应的每个应⽤到这个函数的地⽅都会对这个类进⾏实例化。

对于每⾏输⼊都会调⽤到evaluate()函数。

⽽evaluate()函数处理的值会返回给Hive。

同时⽤户是可以重载evaluate⽅法的。

Hive会像Java的⽅法重载⼀样，⾃动选择匹配的⽅法.⼀、应⽤案例1）全⾓转半⾓package com.sjck.hive.udf;import ng.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;/*** 全⾓转半⾓* @author Administrator**/public class ToSingleByte extends UDF {public static String evaluate(String val) {if(StringUtils.isNotBlank(val)){char c[] = val.toCharArray();for (int i = 0; i < c.length; i++) {if (c[i] == '\u3000') {c[i] = ' ';} else if (c[i] > '\uFF00' && c[i] < '\uFF5F') {c[i] = (char) (c[i] - 65248);}}String returnString = new String(c);return returnString;}return "";}}View Code2）⾝份证信息验证package com.sjck.hive.udf.util;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import org.slf4j.Logger;import org.slf4j.LoggerFactory;/*** <p>* ⾝份证合法性校验* --15位⾝份证号码：第7、8位为出⽣年份(两位数)，第9、10位为出⽣⽉份，第11、12位代表出⽣⽇期，第15位代表性别，奇数为男，偶数为⼥。

HIVEudf实例

HIVEudf实例本例中udf来⾃《hive编程指南》其中13章⾃定义函数中⼀个例⼦。

按照步骤，第⼀步，建⽴⼀个项⽬，创建 GenericUDFNvl 类。

/*** 不能接受第⼀个参数为null的情况* 测试过，不是很好⽤*/package hive.udf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;import org.apache.hadoop.hive.ql.udf.generic.GenericUDFUtils;import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;@Description(name = "nvl",value = "_FUNC_(value,default_value) - Returns default value if value is nul else returns value",extended = "Example:\n> SELECT _FUNC_(NULL, 'bla') FROM src LIMIT 1;")public class GenericUDFNvl extends GenericUDF {private GenericUDFUtils.ReturnObjectInspectorResolver returnOIResolver;private ObjectInspector[] argumentOIs;@Overridepublic ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {argumentOIs = arguments;if (arguments.length != 2) {throw new UDFArgumentLengthException("The operator 'NVL' accepts 2 arguments.");}returnOIResolver = new GenericUDFUtils.ReturnObjectInspectorResolver(true);if (!(returnOIResolver.update(arguments[0]) && returnOIResolver.update(arguments[1]))) {throw new UDFArgumentTypeException(2,"THe 1st and 2nd args of function NVL should have the same type, "+ "but they are different: \"" + arguments[0].getTypeName()+ "\" and \"" + arguments[1].getTypeName() + "\"");}return returnOIResolver.get();}@Overridepublic Object evaluate(DeferredObject[] arguments) throws HiveException {Object retVal = returnOIResolver.convertIfNecessary("", argumentOIs[0]);//if (retVal == null) {retVal = returnOIResolver.convertIfNecessary(arguments[1], argumentOIs[1]);//}return retVal;}@Overridepublic String getDisplayString(String[] children) {StringBuilder sb = new StringBuilder();sb.append("if ");sb.append(children[0]);sb.append(" is null ");sb.append("returns");sb.append(children[1]);return sb.toString();}}创建完成之后，在项⽬中点右键->Export->JAR file，再下⼀步中选中刚刚创建的这个⽂件，将⽂件导出为.jar⽂件。

hive自增函数

hive自增函数Hive自增函数是一种用于自动生成唯一值的函数。

在Hive中，可以使用自增函数在表中生成一个递增的序列值。

Hive自增函数是通过使用Hive内置的UDF（用户自定义函数）和UDAF（用户自定义聚合函数）来实现的。

下面是几种常用的Hive自增函数的示例：1.使用UDF实现自增函数```sqlCREATE TABLE my_tableid INT,name STRING--创建自定义UDF-- 使用自增函数生成递增的idINSERT INTO TABLE my_table SELECT get_next_id(, 'John';INSERT INTO TABLE my_table SELECT get_next_id(, 'Alice';```上面的示例中，我们先创建了一个包含id和name字段的表my_table。

然后，我们创建了一个自定义的UDF get_next_id，该UDF负责生成下一个递增的id。

最后，我们使用自增函数get_next_id(在插入数据时生成递增的id。

2.使用UDAF实现自增函数```sqlCREATE TABLE my_tableid INT,name STRING--创建自定义UDAF-- 使用自增函数生成递增的idINSERT INTO TABLE my_tableSELECT get_next_id(, 'John'FROM (SELECT NULL) temp;INSERT INTO TABLE my_tableSELECT get_next_id(, 'Alice'FROM (SELECT NULL) temp;```上面的示例中，我们先创建了一个包含id和name字段的表my_table。

然后，我们创建了一个临时的自定义UDAF get_next_id，该UDAF负责生成下一个递增的id。

Hive自定义函数UDF

Hive自定义函数UDF在使用hive的时候，hive本身自带的函数不足以满足于我们需求的情况下，我们可以自定义满足我们需求的函数。

一、hive自定义函数步骤：1、继承org.apache.hadoop.hive.ql.exec.UDF;2、写固定的evaluate()方法。

这个方法名字是固定的。

注意：evaluate方法支持重载。

二、实例演示1、代码package com.hive.test;import org.apache.hadoop.hive.ql.exec.UDF;public class HiveUdf extends UDF{public String evaluate(int num){if(num>1000){return "very good";}else if(num>500){return "good";}else {return "bad";}}}2、将此代码打成jar包并上传linux3、准备测试数据[root@cmaster test]# vim num.txt4、创建表并且导入数据hive> create table mytest(id int) row format delimited fields terminated by ' ';hive> load data local inpath '/test/num.txt' into table mytest;5、将jar加载到hive中hive> add jar /test/hiveUdf_jar/hive_test.jar> ;6、创建一个临时函数指向上边编译的类hive> create temporary function myF as 'com.hive.test.HiveUdf';7、可以调用这个函数了hive> select myF(id) from mytest;OKvery goodgoodgoodbadTime taken: 1.742 seconds, Fetched: 4 row(s)8、调用完函数可以删除hive> drop temporary function myF;注意：查询hive所有函数使用 show functions hive> show functions;。

hive自定义UDF编写函数

1.创建一个类继承GenericUDF或者UDF类，在类中实现自定义函数的逻辑，此例是继承GenericUDF类。

GenericUDF实现比较复杂，需要先继承GenericUDF。

这个API需要操作Object Inspectors，并且要对接收的参数类型和数量进行检查。

GenericUDF需要实现以下三个方法：//这个方法只调用一次，并且在evaluate()方法之前调用。

该方法接受的参数是一个ObjectInspectors数组。

该方法检查接受正确的参数类型和参数个数。

abstract ObjectInspector initialize(ObjectInspector[] arguments);//这个方法类似UDF的evaluate()方法。

它处理真实的参数，并返回最终结果。

abstract Object evaluate(GenericUDF.DeferredObject[] arguments);//这个方法用于当实现的GenericUDF出错的时候，打印出提示信息。

而提示信息就是你实现该方法最后返回的字符串。

abstract String getDisplayString(String[] children);2.此处是重新实现hive中add_months函数，实现和mysql中添加月份一样的效果（date_add(CURDATE(),INTERVAL 1 MONTH)），此处需要引入两个jar包：hadoop-common-2.7.3.jar，hive-exec-1.2.1.jar，项目结构如下图：需要在项目中添加一个MANIFEST.MF文件，定义主类和关联的jar包，内容如下：说明：Class-Path需要指定依赖的第三方jar包的存储位置3.打包过程如下：勾选要打包的文件，指定生成的jar包名和存储位置直接Next选择前面项目中添加的MANIFEST.MF文件，如下图最后直接点击Finish即可4.将jar包上传到hive上，注册自定义函数临时函数先将上面生成的jar放到服务器上某个位置，然后进入hive客户端，执行以下命令，注册一个临时函数：add jar /home/...(省略).../bigdata-udf-mysqladdmonths.jar;create temporary function mysql_add_months as 'com.xxx.udf.MysqlAddMonths';select mysql_add_months('2018-02-28',1);永久函数在hdfs上创建一个目录然后把生成的jar包和依赖的两个jar包上传上去，结果如下图1.执行hdfs命令建目录（切换到hdfs用户）：hadoop dfs -mkdir /apps/hive/udf_libs2.把jar包先放到一个临时目录下，进入目录，执行hadoop命令，然后删除目录hadoop dfs -put *.jar在进入hive客户端，执行创建函数命令create function mysql_add_months as 'com.xxx.udf.MysqlAddMonths' USING JAR 'hdfs://xxxcluster/apps/hive/udf_libs/bigdata-udf-mysqladdmonths.jar'使用示例：select mysql_add_months('2018-02-28',1);。

hive中简单的udf函数编写

hive中简单的udf函数编写1.注册函数，使⽤using jar⽅式在hdfs上引⽤udf库。

$hive>create function formattime as'com.bigdata.udf.FormatTimeUDF' using jar 'hdfs://hadoop01/app/app-logs-hive-1.0-SNAPSHOT.jar';2.注销函数，只需要删除mysql的hive数据记录即可。

delete from func_ru ;delete from funcs ;show funcyions；desc formatted function substring；2.udf函数获取天开始⼀些简单⽅法@Description(name = "udf_getdaybegin",value = "getdaybegin",extended = "getdaybegin() ;\r\n"+ " getdaybegin(2) \r\n"+ " getdaybegin('2017/06/29 01:02:03') \r\n"+ " getdaybegin('2017/06/29 01:02:03',2) \r\n"+ " getdaybegin(date_obj) \r\n"+ " getdaybegin(date_obj,2)")public class DayBeginUDF extends UDF {/*** 计算现在的起始时刻(毫秒数)*/public long evaluate() throws ParseException {return evaluate(new Date());}/*** 指定天偏移量*/public long evaluate(int offset) throws ParseException {return evaluate(DateUtil.getDayBeginTime(new Date(), offset));}/*** 计算某天的开始时刻(毫秒数)*/public long evaluate(Date d) throws ParseException {return DateUtil.getDayBeginTime(d).getTime();}/*** 计算某天的开始时刻(毫秒数)*/public long evaluate(Date d, int offset) throws ParseException {return DateUtil.getDayBeginTime(d, offset).getTime();}/*** 计算某天的起始时刻(毫秒数)*/public long evaluate(String dateStr) throws ParseException {SimpleDateFormat sdf = new SimpleDateFormat("yyyy/MM/dd HH:mm:ss");Date d = sdf.parse(dateStr);return evaluate(d);}/*** 计算某天的起始时刻(毫秒数)*/public long evaluate(String dateStr, int offset) throws ParseException {SimpleDateFormat sdf = new SimpleDateFormat("yyyy/MM/dd HH:mm:ss");Date d = sdf.parse(dateStr);return DateUtil.getDayBeginTime(d, offset).getTime();}/*** 计算某天的起始时刻(毫秒数)*/public long evaluate(String dateStr, String fmt) throws ParseException {SimpleDateFormat sdf = new SimpleDateFormat(fmt);Date d = sdf.parse(dateStr);return DateUtil.getDayBeginTime(d).getTime();}/*** 计算某天的起始时刻(毫秒数)*/public long evaluate(String dateStr, String fmt, int offset) throws ParseException {SimpleDateFormat sdf = new SimpleDateFormat(fmt);Date d = sdf.parse(dateStr);return DateUtil.getDayBeginTime(d, offset).getTime();}}。

大数据javahiveudf函数的示例代码（手机号码脱敏）

⼤数据javahiveudf函数的⽰例代码（⼿机号码脱敏）Hive UDFHive UDF 函数1 POM ⽂件2.UDF 函数3 利⽤idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs⽂件权限4.3 注册UDF4.4 使⽤UDF Hive UDF 函数1 POM ⽂件<?xml version="1.0" encoding="UTF-8"?><project xmlns="/POM/4.0.0"xmlns:xsi="/2001/XMLSchema-instance"xsi:schemaLocation="/POM/4.0.0 /xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>填写⾃⼰的组织名称</groupId><artifactId>udf</artifactId><version>1.0-SNAPSHOT</version><properties><project.build.sourceEncoding>UTF8</project.build.sourceEncoding><hadoop.version>2.6.0-cdh5.13.3</hadoop.version><hive.version>1.1.0-cdh5.13.3</hive.version></properties><repositories><repository><id>Apache Hadoop</id><name>Apache Hadoop</name><url>https:///maven2/</url></repository><repository><id>cloudera</id><name>cloudera</name><url>https:///artifactory/cloudera-repos/</url></repository></repositories><dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>${hive.version}</version></dependency></dependencies><build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><configuration><source>1.8</source><target>1.8</target></configuration></plugin><plugin><artifactId>maven-assembly-plugin</artifactId><configuration><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><executions><execution><id>make-assembly</id><phase>package</phase><goals><goal>single</goal></goals></execution></executions></plugin></plugins></build></project>2.UDF 函数package 填写⾃⼰的组织名称;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;// 上传udf jar到集群 hdfs dfs -put udf-1.0-SNAPSHOT-jar-with-dependencies.jar /data/data_coe/data_asset/prod/db/tmp/udf/// 修改⽂件权限 hdfs dfs -chmod -R 777 hdfs://idc-nn/data/data_coe/data_asset/prod/db/tmp/udf///注册udf函数 create function tmp.pul as '填写⾃⼰的组织名称.PhoneUnlookUdf' using jar 'hdfs://idc-nn/data/data_coe/data_asset/prod/db/tmp/udf/udf-1.0-SNAPSHOT-jar-with-dependencies.jar public class PhoneUnlookUdf extends UDF {//重写evaluate⽅法public String evaluate(String phone){if (phone.length() == 11){String res = phone.substring(0, 3) + "****" + phone.substring(7, phone.length());System.out.println(res);return res;} else {return phone;}}}3 利⽤idea打包先点clean，在点package4 添加hive udf函数集群的某些问题，不能直接通过添加服务器上本地⽂件到hive增加udf；需要将⽂件上传到hdfs，然后定义udf函数。

Hive自定义UDTF函数

Hive⾃定义UDTF函数UDTF（User-Defined Table-Generating Functions）⼀进多出，如lateral view explore()实现⽅法：1）继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF2）重写initialize、process、close⽅法UDTF⾸先会调⽤initialize⽅法，此⽅法返回UDTF的返回⾏的信息（返回个数，类型，名称）。

初始化完成后，会调⽤process⽅法，对传⼊的参数进⾏处理，可以通过forword()⽅法把结果返回。

最后close()⽅法调⽤，对需要清理的⽅法进⾏清理应⽤案例需求：使⽤⾃定义UDTF函数获取两个时间之间的时间列表package com.sjck.hive.udf;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;public class DateMap extends GenericUDTF {@Overridepublic void close() throws HiveException {}@Overridepublic StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {if (args.length != 2) {throw new UDFArgumentLengthException("DateMap takes only two argument");}ArrayList<String> fieldNames = new ArrayList<String>();ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();fieldNames.add("begin_date"); //指定输出参数名称fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);fieldNames.add("end_date");fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);}@Overridepublic void process(Object[] args) throws HiveException {try {String begin = String.valueOf(args[0]);String end = String.valueOf(args[1]);SimpleDateFormat timeFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd");int days = (int) (dateFormat.parse(end).getTime() - dateFormat.parse(begin).getTime())/ (60 * 60 * 24 * 1000);Date startDate = timeFormat.parse(begin);Date endDate = timeFormat.parse(end);Calendar ecalendar = Calendar.getInstance();ecalendar.setTime(startDate);Date d1 = startDate;Date d2 = null;if(days==0){d2=endDate;}else{ecalendar.add(Calendar.DATE, 1);ecalendar.set(Calendar.HOUR_OF_DAY, 0);ecalendar.set(Calendar.MINUTE, 0);ecalendar.set(Calendar.SECOND, 0);d2=ecalendar.getTime();}String datas[][] = new String[days + 1][2];datas[0][0] = timeFormat.format(d1);datas[0][1] = timeFormat.format(d2);for (int i = 1; i < days + 1; i++) {d1 = d2;ecalendar.add(Calendar.DATE, 1);d2 = ecalendar.getTime();if (d2.after(endDate)) {d2 = endDate;}datas[i][0] = timeFormat.format(d1);datas[i][1] = timeFormat.format(d2);}for (int i = 0; i < datas.length; i++) {String[] s = new String[2];s[0] = datas[i][0];s[1] = datas[i][1];forward(s);}} catch (ParseException e) {e.printStackTrace();}}}将代码打成jar包上传到服务器上，我这边是上传到hdfs上的hadoop fs -put hive-udf.jar /user/hive/udf声明函数create function datemap AS 'com.sjck.hive.udf.DateMap' using jar 'hdfs://nameservice1/user/hive/udf/hive-udf.jar'; 使⽤⽅式⼀：直接放在select后⾯看下使⽤到表结构select * from bst_bas_driver_info_work_time where id='2440780' //看看选择的⼀条数据使⽤datemap函数获取开始时间-结束时间中间的时间（按天展开）select datemap(date_format(t.work_start_time, 'yyyy-MM-dd HH:mm:ss'),date_format(t.work_end_time, 'yyyy-MM-dd HH:mm:ss')) as (begin_date,end_date) frombst_bas_driver_info_work_time twhere id='2440780'注意：1）不可以添加其他字段使⽤：select datemap(date_format(t.work_start_time, 'yyyy-MM-dd HH:mm:ss'),date_format(t.work_end_time, 'yyyy-MM-dd HH:mm:ss')) as (begin_date,end_date) frombst_bas_driver_info_work_time t where id='2440780'2）不可以嵌套调⽤:select datemap(datemap(xx,xxx),datemap(xx,xxx)) from bst_bas_driver_info_work_time3）不可以和group by/cluster by/distribute by/sort by⼀起使⽤：select datemap(xx,xxx)as (begin_date,end_date) from bst_bas_driver_info_work_time group by begin_date, end_date⽅式⼆：和lateral view⼀起使⽤select work_start_time as start_date,work_end_time as end_date,t.mid_start_date,t.mid_end_datefrom bst_bas_driver_info_work_time lateral view datemap(date_format(work_start_time, 'yyyy-MM-dd HH:mm:ss'), date_format(work_end_time, 'yyyy-MM-dd HH:mm:ss')) t as mid_start_date, mid_end_datewhere id in ('2440780')　其实这个功能⽤posexplode也可以完成，看下代码：效果⼀样，只不过中间逻辑⾃⼰还得单独做处理下，代码参考我的另⼀篇这⾥重点在于UDTF⾃定义函数的实现。

Spark（Hive）SQL中UDF的使用（Python）

Spark（Hive）SQL中UDF的使⽤（Python）相对于使⽤MapReduce或者Spark Application的⽅式进⾏数据分析，使⽤Hive SQL或Spark SQL能为我们省去不少的代码⼯作量，⽽Hive SQL或Spark SQL本⾝内置的各类UDF也为我们的数据处理提供了不少便利的⼯具，当这些内置的UDF不能满⾜于我们的需要时，Hive SQL或Spark SQL还为我们提供了⾃定义UDF的相关接⼝，⽅便我们根据⾃⼰的需求进⾏扩展。

在Hive的世界⾥使⽤⾃定义UDF的过程是⽐较复杂的。

我们需要根据需求使⽤Java语⾔开发相应的UDF（UDAF、UDTF），然后将UDF的代码及其依赖编译打包为Jar，使⽤⽅法有两种：（1）临时函数在⼀次会话（Session）中使⽤如下语句创建临时函数：ADD JAR /run/jar/udf_test.jar;CREATE TEMPORARY FUNCTION my_add AS 'com.hive.udf.Add';这种⽅式有⼀个缺点：每⼀次会话过程中使⽤函数时都需要创建，⽽且仅在当前会话中有效。

（2）永久函数这个特性需要⾼版本的Hive⽀持，它的好处是可以将UDF Jar存放⾄HDFS，函数仅需要创建⼀次即可以永久使⽤，如下：CREATE FUNCTION func.ipToLocationBySina AS 'com.sina.dip.hive.function.IPToLocationBySina' USING JAR 'hdfs://dip.cdh5.dev:8020/user/hdfs/func/location.jar';虽然永久函数相对于临时函数有⼀定优势，但Java语⾔的开发门槛很⼤程度上妨碍了UDF在实际数据分析过程中使⽤，毕竟我们的数据分析师多数是以Python、SQL为主要分析⼯具的，每⼀次UDF的开发都需要⼯程师的参与，开发效率与应⽤效果都是不是很好（可能需要频繁更新UDF的问题），PySpark的出现确很好地解决了这个问题：它可以⾮常⽅便地将⼀个普通的Python函数注册为⼀个UDF。

2.13Hive中自带Function使用及自定义UDF编程

2.13Hive中⾃带Function使⽤及⾃定义UDF编程UDF：User Definition Function⼀、function#查看⾃带的函数hive (db_hive)> show functions;#查看⼀个函数的详细⽤法hive (db_hive)> desc function extended split;OKtab_namesplit(str, regex) - Splits str around occurances that match regexExample:> SELECT split('oneAtwoBthreeC', '[ABC]') FROM src LIMIT 1;["one", "two", "three"]Time taken: 0.005 seconds, Fetched: 4 row(s)⼆、UDF#⾃定义UDFHive⾃带了⼀些函数，⽐如：max/min等，但是数量有限，⾃⼰可以通过⾃定义UDF来⽅便的扩展。

UDF：⽤户⾃定义函数，允许⽤户扩展HiveQL功能；##UDF（User-Defined-Function）⼀进⼀出UDAF（User-Defined Aggregation Funcation）聚集函数，多进⼀出；类似于：count/max/minUDTF（User-Defined Table-Generating Functions）⼀进多出；如lateral view explore（）编程步骤：1、继承org.apache.hadoop.hive.ql.UDF2、需要实现evaluate函数；evaluate函数⽀持重载；注意事项：1、UDF必须要有返回类型，可以返回null，但是返回类型不能为void；2、UDF中常⽤Text/LongWritable等类型，不推荐使⽤java类型；创建⼀个UDF-⽅式⼀：1、Creating Custom UDFs### LowerUDF.java###package com.beifeng.senior.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;/*** 1. Implement one or more methods named* "evaluate" which will be called by Hive.** 2."evaluate" should never be a void method. However it can return "null" if* needed.* @author root**/public class LowerUDF extends UDF{public Text evaluate(Text str) {//validateif(null == str.toString()) {return null;}//lowerreturn new Text (str.toString().toLowerCase());}public static void main(String[] args) {System.out.println(new LowerUDF().evaluate(new Text("HIVE")));}}#然后打成jar包[root@hadoop-senior datas]# pwd/opt/datas[root@hadoop-senior datas]# ls hiveudf.jarhiveudf.jar2、usage#添加hive (db_hive)> add jar /opt/datas/hiveudf.jar;Added /opt/datas/hiveudf.jar to class pathAdded resource: /opt/datas/hiveudf.jar#注册，my_lower是要注册的函数名，com.beifeng.senior.hive.udf.LowerUDF是类名hive (db_hive)> create temporary function my_lower as "com.beifeng.senior.hive.udf.LowerUDF";OKTime taken: 0.012 seconds#查看hive (db_hive)> show functions;...my_lower...#测试使⽤hive (db_hive)> select ename, my_lower(ename) lowername from emp limit 5;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce operatorStarting Job = job_1554717689707_0031, Tracking URL = :8088/proxy/application_1554717689707_0031/ Kill Command = /opt/modules/hadoop-2.5.0/bin/hadoop job -kill job_1554717689707_0031Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 02019-04-24 15:32:42,268 Stage-1 map = 0%, reduce = 0%2019-04-24 15:32:47,387 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.28 secMapReduce Total cumulative CPU time: 1 seconds 280 msecEnded Job = job_1554717689707_0031MapReduce Jobs Launched:Job 0: Map: 1 Cumulative CPU: 1.28 sec HDFS Read: 894 HDFS Write: 60 SUCCESSTotal MapReduce CPU Time Spent: 1 seconds 280 msecOKename lowernameSMITH smithALLEN allenWARD wardJONES jonesMARTIN martinTime taken: 10.548 seconds, Fetched: 5 row(s)创建⼀个UDF-⽅式⼆：此⽅法jar包要位于hdfs上；CREATE FUNCTION myfunc AS 'myclass' USING JAR 'hdfs:///path/to/jar';1、##上传jar包到hdfshive (db_hive)> dfs -mkdir -p /user/root/hive/jars/;hive (db_hive)> dfs -put /opt/datas/hiveudf.jar /user/root/hive/jars/;hive (db_hive)> dfs -ls -R /user/root/hive/jars;-rw-r--r-- 1 root supergroup 910 2019-04-24 15:40 /user/root/hive/jars/hiveudf.jar#创建functionhive (db_hive)> create function self_lower as 'com.beifeng.senior.hive.udf.LowerUDF' using jar 'hdfs://:8020/user/root/hive/jars/hiveudf.jar'; converting to local hdfs://:8020/user/root/hive/jars/hiveudf.jarAdded /tmp/5356b66f-bf56-4de6-abf8-30be8029fa8b_resources/hiveudf.jar to class pathAdded resource: /tmp/5356b66f-bf56-4de6-abf8-30be8029fa8b_resources/hiveudf.jarOKTime taken: 0.025 seconds#使⽤hive (db_hive)> select ename, self_lower(ename) lowername from emp limit 5;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce operatorStarting Job = job_1554717689707_0032, Tracking URL = :8088/proxy/application_1554717689707_0032/Kill Command = /opt/modules/hadoop-2.5.0/bin/hadoop job -kill job_1554717689707_0032Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 02019-04-24 15:53:28,378 Stage-1 map = 0%, reduce = 0%2019-04-24 15:53:33,504 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.35 secMapReduce Total cumulative CPU time: 1 seconds 350 msecEnded Job = job_1554717689707_0032MapReduce Jobs Launched:Job 0: Map: 1 Cumulative CPU: 1.35 sec HDFS Read: 894 HDFS Write: 60 SUCCESSTotal MapReduce CPU Time Spent: 1 seconds 350 msecOKename lowernameSMITH smithALLEN allenWARD wardJONES jonesMARTIN martinTime taken: 10.549 seconds, Fetched: 5 row(s)。

Hive自定义函数udf实例

Hive进行UDF开发

genericudf 与 普通的udf 函数

hive项目实训案例

hive创建自定义函数

自定义udf函数解析嵌套json数组

hive3 udf函数编写

hive udf函数例子

自定义udf函数解析嵌套json数组

Hive自定义函数（UDF、UDAF）

Hive自定义UDF函数

HIVEudf实例

hive自增函数

Hive自定义函数UDF

hive自定义UDF编写函数

hive中简单的udf函数编写

大数据javahiveudf函数的示例代码（手机号码脱敏）

Hive自定义UDTF函数

Spark（Hive）SQL中UDF的使用（Python）

2.13Hive中自带Function使用及自定义UDF编程

genericudf 与普通的udf 函数