【Algorithm】海量数据处理 - hash映射再取模 + hashmap统计 + 排序

思路

于海量数据而言，由于无法一次性装进内存处理，导致我们不得不把海量的数据通过hash映射分割成相应的小块数据，然后再针对各个小块数据通过hashmap进行统计或其它操作。

那什么是hash映射呢？简单来说，就是为了便于计算机在有限的内存中处理大数据，我们通过一种映射散列的方式让数据均匀分布在对应的内存位置（如大数据通过取余的方式映射成小数存放在内存中，或大文件映射成多个小文件），而这个映射散列方式便是我们通常所说的hash函数，设计的好的hash函数能让数据均匀分布而减少冲突。

...

Posted by Wei on 2019-07-05, Last Modified on 2023-10-11

【Algorithm】海量数据处理

top K 问题

在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最好的前k个数，或者从海量数据中找出最大的前k个数，这类问题通常被称为top K问题。例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载最高的前10首歌等。

针对top K类问题，通常比较好的方案是分治+Trie树/hash+小顶堆（就是上面提到的最小堆），即先将数据集按照Hash方法分解成多个小数据集，然后使用Trie树或 Hash 统计每个小数据集中的query词频，之后用小顶堆求出每个数据集中出现频率最高的前K个数，最后在所有top K中求出最终的top K。

...

Posted by Wei on 2019-07-05, Last Modified on 2023-10-11

【Algorithm Problem】海量数据处理 - 10亿int型数，统计只出现一次的数

题目

10亿int整型数，以及一台可用内存为1GB的机器，时间复杂度要求O(n)，统计只出现一次的数？

...

Posted by Wei on 2019-07-05, Last Modified on 2025-04-23

【Security】Web安全

XSS

首先说下最常见的 XSS 漏洞，XSS (Cross Site Script)，跨站脚本攻击，因为缩写和 CSS (Cascading Style Sheets) 重叠，所以只能叫 XSS。

XSS 的原理是恶意攻击者往 Web 页面里插入恶意可执行网页脚本代码，当用户浏览该页之时，嵌入其中 Web 里面的脚本代码会被执行，从而可以达到攻击者盗取用户信息或其他侵犯用户安全隐私的目的。XSS 的攻击方式千变万化，但还是可以大致细分为几种类型。

...

Posted by Wei on 2019-07-04, Last Modified on 2023-01-13

【OOP】什么是多态

什么是多态

面向对象的三大特性：封装（encapsulation）、继承（Inheritance）和多态（polymorphism）。从一定角度来看，封装和继承几乎都是为多态而准备的。

...

Posted by Wei on 2019-07-03, Last Modified on 2023-07-18

西维蜀黍