智能技术与系统国家重点实验室
信息检索组

THUIRDB:高性能Key-Value DB

概述:

    THUIRDB是一个C++语言实现的基础库,用于在单机上实现高性能key-value持久化存储和高速查询。
    例如:如下语料文件(corpus_file)如下:
    penny<->liang
    tsinghua<->university
    ...
    google<->search engine
    其中前者表示key,后者表示value。
    在入库操作完毕后,任意输入一个key(例如tsinghua),则系统快速给出其对应的value(例如university)。

    其主要的特色:
        索引压缩率高(平均每个key-value对的索引消耗为1~2bit)
        计算资源可扩充性好
        支持大数据量(4G内存理论上可以支持100亿条数据的做库和检索,每次检索最多1次读盘)
        使用方便(不依赖特定库)

功能:

    THUIRDB专注的领域为一次创建大规模数据(1亿记录以上,100亿记录以下),此后只读不改的场景,做库快速和查询快速是主要特点
    其主要的功能:
        批量做库
        查询&并发查询
        顺序扫库

限制:

    THUIRDB是一个正在发展中的基础库,具有实现更多功能的基础,目前许多功能尚不支持或者尚在测试阶段。
    其他限制:
        不支持SQL语言
        只提供C语言接口
        key暂定最大512字节(如有需求可以改大)
        value暂定最大4K字节(如有需求可以改大)

典型应用:

    支持Google 高阶语言模型等

当前应用:

    微博寻人在线系统: xunren.thuir.org

学术交流:

    2011-04-19 应邀在中科院计算所自然语言处理组作THUIRDB原理报告和技术交流。参见详情
    2011-05-31 应邀在中科院计算所信息检索组作THUIRDB原理报告和技术交流。参见详情
    2011-06-14 应邀在网易杭州研究院作THUIRDB原理报告和技术交流。
    2011-06-17 应邀在上海证券交易所作THUIRDB原理报告和技术交流。
    2011-06-21 应邀在北京淘宝作THUIRDB原理报告和技术交流。
    2011-06-24 应邀在清华大学数据库组介绍THUIRDB工作原理。
    2011-06-28 应邀在宜搜科技介绍THUIRDB工作原理。
    2011-06-29 应邀在新浪微博介绍THUIRDB工作原理。
    2011-07-10 应邀参加淘宝技术嘉年华活动,并作嘉宾报告。参见详情
    2011-07-10 应邀在泰为科技作THUIRDB原理报告和技术交流。
    2011-11-09 应邀在人民搜索作THUIRDB原理报告和技术交流。
    2011-11-14 应邀在微软亚洲研究院作THUIRDB原理报告和技术交流。
    2011-12-03 应邀在参加Hadoop 介绍THUIRDB工作原理。参见详情
    2012-11-30 参加中国信息检索大会并做报告。

版权申明:

    Copyright 2007.8 清华大学智能技术与系统国家重点实验室, All Rights Reserved

软件下载:

下载链接:download(6.1KB) ,并参见ReadMe.txt学习使用。初级用户采用 sh help.sh 一键体验。 仅限linux 64位情况下使用

发表论文:

下载链接:pdf

目前支持的在线系统:

1)微博寻人系统 xunren.thuir.org

2)读下去系统 duxiaqu.com

3)多语言词库系统 cikuapi.com