FileInputFormat.setInputPaths多路径读取规则

FileInputFormat.setInputPaths(job,input1,input2);在读取文件时候,默认先读单个大文件所在的路径(一次性读清该文件下所有文件),后读小文件所在路径。写协同过滤时候,想让setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2就算把文件位置交换,读取的顺序还是错误publicstaticclassmyMapp…

大家好,又见面了,我是你们的朋友全栈君。

FileInputFormat.setInputPaths(job, input1, input2);
在读取文件时候,默认先读单个大文件所在的路径(一次性读清该文件下所有文件),后读小文件所在路径。

写协同过滤时候,想让
setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2
就算把文件位置交换,读取的顺序还是错误
public static class myMapper extends Mapper<LongWritable, Text, Text, Text> {
		@SuppressWarnings("rawtypes")
		private final static Map<Integer, List> cooccurrenceMatrix = new HashMap<Integer, List>();// 同现矩阵

		Text k = new Text();
		Text v = new Text();

		@SuppressWarnings("unchecked")
		@Override
		protected void map(LongWritable key, Text values,
				Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {

			String[] lists = values.toString().split("[\t,]");

			// 同现矩阵时候,v1存的是书本id 书本id v2存的是权值。
			// 用户评分矩阵,v1存的是书本号 v2存的是用户id 用户评分
			String[] v1 = lists[0].split(":");
			String[] v2 = lists[1].split(":");

			if (v1.length > 1) {// 需要先读到cooccurrence同现矩阵
				int itemID1 = Integer.parseInt(v1[0]);// 横轴
				int itemID2 = Integer.parseInt(v1[1]);// 纵轴

				int num = Integer.parseInt(v2[0]);// 权重

				List<Cooccurrence> list = null;
				if (!cooccurrenceMatrix.containsKey(itemID1))
					list = new ArrayList<Cooccurrence>();
				else
					list = cooccurrenceMatrix.get(itemID1);

				list.add(new Cooccurrence(itemID1, itemID2, num));
				cooccurrenceMatrix.put(itemID1, list);// 以横坐标书号为key 存储同现矩阵
			}

			if (v2.length > 1) {// userVector用户评价矩阵

				int itemID = Integer.parseInt(v1[0]);// 物品id
				String userID = v2[0];// 用户id
				double pref = Double.parseDouble(v2[1]);// 用户评分

				k.set(userID);

				if (cooccurrenceMatrix.containsKey(itemID)) {
					Iterator<Cooccurrence> iterator = cooccurrenceMatrix.get(
							itemID).iterator();

					while (iterator.hasNext()) {
						Cooccurrence co = iterator.next();

						v.set(co.getItemID2() + "," + pref * co.getNum());
						context.write(k, v);
					}

				}
			}
		}
	}

百度了半天没结果,然后自己琢磨。
自己捣鼓了半天后,把大文件进行了切块。然后读取正确。


ok,上结论:

FileInputFormat.setInputPaths(job, input1, input2);在读取文件时候,默认先读单个大文件所在的路径(一次性读清),后读
小文件所在路径。


协同过滤的代码参考的是https://blog.csdn.net/pang_hailong/article/details/53046330?locationNum=12&fps=1

开始时候还不明白为什么把step3里边把同现矩阵重写一遍,然后分析70m的豆瓣数据时候看了step2和step3_2的区别,就是将数据进行了切割,保证了先读step3_1里边的数据,后读step3_2里边的数据。

就是这样,小萌新第一次写博客,请大神们多多指教。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/125996.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月6日 下午10:00
下一篇 2022年4月6日 下午10:00


相关推荐

  • PHP解决高并发问题

    PHP解决高并发问题我们通常衡量一个Web系统的吞吐率的指标是QPS(QueryPerSecond,每秒处理请求数),解决每秒数万次的高并发场景,这个指标非常关键。举个例子,我们假设处理一个业务请求平均响应时间为100ms,同时,系统内有20台Apache的Web服务器,配置MaxClients为500个(表示Apache的最大连接数目)。那么,我们的Web系统的理论峰值QPS为(理想化的计算方式):20*500/0.1=100000(10万QPS)咦?我们的系统似乎很强大,1秒钟可以处理完10万的请求,5w/

    2022年5月31日
    33
  • 不一样的春节思维导图的内容_电学思维导图

    不一样的春节思维导图的内容_电学思维导图春节是我国四大传统节日之一,可以算是历史之悠久。但随着社会的发展,春节期间的年味渐渐的没那么浓烈了,以前大家聚在一起守岁、放鞭炮等,而现在大多数人都是抱着电子产品谁也不搭理谁。以往的习俗简而又简,后出

    2022年8月1日
    9
  • 360奇安信天擎卸载不干净_奇安信Ateam

    360奇安信天擎卸载不干净_奇安信Ateam360天擎是什么具体可以参考:百度:360天擎总之,一些单位里为了安全防护,会在单位的电脑上安装360天擎,如果你想用自己的笔记本电脑连上单位的网络的话,也会要求你安装。不安装就连不上网络,但安装之后,卸载又是一个很大的难题。用什么卸载其实网上会有很多强力卸载软件,甚至有些会强力到可以卸载系统文件,这类软件不建议使用(如果用的明白,请自便)。无效方式如,腾讯管家自带的软件管理有效方式如,联想电脑管家,和微软自带的卸载,如下图:点击右键->卸载->完成?不不不,这

    2026年3月9日
    4
  • 即梦ai试用7天可以关闭吗

    即梦ai试用7天可以关闭吗

    2026年3月13日
    2
  • PHP操作Redis数据库常用方法

    PHP操作Redis数据库常用方法

    2021年11月7日
    51
  • CAN总线详解

    1、简介CAN是控制器局域网络(ControllerAreaNetwork,CAN)的简称,是一种能够实现分布式实时控制的串行通信网络。优点:传输速度最高到1Mbps,通信距离最远到10km,无损位仲裁机制,多主结构。近些年来,CAN控制器价格越来越低。Ø低成本:ECUs通过单个CAN接口进行通信,布线成本低。Ø高集成:CAN总线系统允许在所有ECUs上进行集中错误诊…

    2022年4月6日
    83

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号