知识库 - Orange

Deformable Convolution系列

Computer Vision

2026-01-11

Deformable Conv v1 这篇文章其实比较老了，是 2017 年 5 月出的 1. Motivation 1.1 Task 上的难点视觉任务中一个难点就是如何 model 物体的几何变换，比如由于物体大小，pose, viewpoint 引起的。一般有两类做法：在数据集上做文章，让 training dataset 就包含所有可能的集合变换。通过 affine transformation 去做 augmentation 另一种就是设计 transformationinvariant (对那些几何变换不变）的 feature 和算法。比如 SIFT 和 sliding window 的方式。文章说上述两种方式有问题，几何变换我们是事先知道的，这种不能 generalize ...

#Self-Supervised #CV

READ

Hadoop、Hive、Spark 之间是什么关系？

杂七杂八

2026-01-11

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据传统的文件系统是单机的，不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要...

#大数据

READ

Tensorflow之特征工程

Python

2026-01-11

Overview 特征工程是机器学习流程中重要的一个环节，即使是通常用来做端到端学习的深度学习模型在训练之前也免不了要做一些特征工程相关的工作。Tensorflow平台提供的FeatureColumn API为特征工程提供了强大的支持。 Feature cloumns是原始数据和Estimator模型之间的桥梁，它们被用来把各种形式的原始数据转换为模型能够使用的格式。深度神经网络只能处理数值数据，网络中的每个神经元节点执行一些针对输入数据和网络权重的乘法和加法运算。然而，现实中的有很多非数值的类别数据，比如产品的品牌、类目等，这些数据如果不加转换，神经网络是无法处理的。另一方面，即使是数值数据，在仍给网络进行训练之前有时也需要做一些处理，比如标准化、离散化等。在Tensorflow中，通过...

#tensorflow

READ

hive lateral view 与 explode

杂七杂八

2026-01-11

1. explode hive wiki对于expolde的解释如下： explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression list and as a part of LATERAL VIEW. As an example of using explode() in the SELECT expression list, consider a table named myTable that has a single column (m...

#大数据

READ

TFRecord的读写

Python

2026-01-11

TFRecord TFRecord 是谷歌推荐的一种二进制文件格式，理论上它可以保存任何格式的信息。 tf.Example是一个Protobuffer定义的message，表达了一组string到bytes value的映射。TFRecord文件里面其实就是存储的序列化的tf.Example。关于Protobuffer参考Protobuf 终极教程。 example 我们可以具体到相关代码去详细地看下tf.Example的构成。作为一个Protobuffer message，它被定义在文件core/example/example.proto中： [代码] 只是包了一层Features的message。我们还需要进一步去查找Features的message定义： [代码] 到这里，我们可以看出...

#tensorflow

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#VLM #Agent

READ

Hadoop

杂七杂八

2026-01-11

Apache Hadoop 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce 和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。具体参考官方教程。 Hadoop架构 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管理功能实现其他的数据处理方式内部各个节点基本都是采用MasterWoker架构 Hadoop HDFS 架构 Block数据块; NameNode Secondary NameNode DataN...

#大数据

READ

#

!

INCOMING TRANSMISSION

Deformable Convolution系列

Hadoop、Hive、Spark 之间是什么关系？

Tensorflow之特征工程

hive lateral view 与 explode

TFRecord的读写

UI-TARS

Hadoop