xgboost
gbdt
[面试题目]
二叉树前序递归遍历算法 (手写代码)
二叉树的前中后遍历
二叉树的文件存储, 也就是序列化.
二叉树遍历, 描述下层序遍历.
二维数组, 每行递增, 每列递增, 任意交换其中的两数, 发现并恢复.
二维数组, 每行递增, 每列递增, 实现查找.
二维数组, 每行递增, 每列递增, 求第 k 大的数.
什么样的数据结构可以满足多次插入删除, 取最小数, 给出时间复杂度.
介绍二叉树前序遍历非递归遍历算法 (手写代码)
介绍大顶堆和小顶堆
从一组数中找出和为 sum 的三个数 (leetcode)
冒泡排序 (手写代码)
写 find 函数, 在目标串中匹配模式串 (要考虑中文字符的情况)
写一个二叉树的非递归的后续遍历
写一个简单的正则匹配表达式 (将文本中的 123.4 匹配出来)
写个动态规划, 最长公共子序列
判断一个字符串是否为另外一个字符串旋转之后的字符串
前 k 大的数
单链表的翻转
去掉连续的重复数字, 输出新数组, 例如: 1,2,2,2,1,3,5--> 3,5.
去除字符串 S1 中的字符使得最终的字符串 S2 不包含'ab'和'c'.(Code)
合法括号匹配
在一个字符串中, 找出最长的无重复字符的字串
在二叉树结点结构中加一个指针域, 使其指向层次遍历的下一个结点, 特别地, 每一层的最后一个结点为空.(Code)
堆排序 (手写代码)
堆是怎么调整的.
复杂链表的复制
大数据题目
100 亿数字, 怎么统计前 100 大的?
10 亿个 url, 每个 url 大小小于 56B, 要求去重, 内存 4G.
1KW 句子算相似度 (还是那套分块 + hash / 建索引, 但是因为本人不是做这个的, 文本处理根本说一片空白, 所以就不误导大家了), 之后就是一直围绕大数据的题目不断深化.
Q1: 给定一个 1T 的单词文件, 文件中每一行为一个单词, 单词无序且有重复, 当前有 5 台计算机. 请问如何统计词频?
Q2: 每台计算机需要计算 200G 左右的文件, 内存无法存放 200G 内容, 那么如何统计这些文件的词频?
Q3: 如何将 1T 的文件均匀地分配给 5 台机器, 且每台机器统计完词频生成的文件只需要拼接起来即可 (即每台机器统计的单词不出现在其他机器中)
一个大文件 A 和一个小文件 B, 里面存的是单词, 要求出在文件 B 中但不在文件 A 中的单词. 然后大文件 A 是无法直接存到内存中的.
一道题目是如果有一个人注册一个 qq, 如何保证这个 qq 号码和之前已存在的 qq 号码不重复呢?
扔硬币, 连续出现两次正面即结束, 问扔的次数期望
有 100W 个集合, 每个集合中的 Word 是同义词, 同义词具有传递性, 比如集合 1 中有 Word a, 集合 2 中也有 Word a, 则集合 1,2 中所有词都是同义词, 对这 100W 个集合进行归并, 同义词都在一个集合当中.
有几个 G 的文本, 每行记录了访问 ip 的 log , 如何快速统计 ip 出现次数最高的 10 个 ip, 如果只用 Linux 指令又该怎么解决;
海量数据的 topk 问题.
如果想学习 Java 工程化, 高性能及分布式, 深入浅出. 微服务, Spring,MyBatis,Netty 源码分析的朋友可以加我的 Java 高级交流: 787707172, 群里有阿里大牛直播讲解技术, 以及 Java 大型互联网技术的视频免费分享给大家.
来源: http://www.bubuko.com/infodetail-3035541.html