影雀丨个人博客站点

数据存储-MongoDB

发布时间丨2023-02-25 11:43:50作者丨zhaomeng浏览丨0

在大数据时代下，数据的存储和管理已成为一个不可逆转的趋势。以往我们使用MySQL这类关系型数据库，但随着数据量越来越大，需要花费更多的精力去优化查询语句及表结构设计等问题。除此之外，随着互联网技术的进步，我们摆脱了许多传统限制，更多的数据形式也产生了。这时，一些非关系性数据库如NoSQL也渐渐得到了发展。

MongoDB就是其中最有代表性的一种，它是一个开放源代码的、高性能、面向文档的非关系性数据库。与传统的关系型数据库不同的是，MongoDB采用面向文档的数据模型，这意味着可以将不同格式的数据混存于数据库中，不必事先定义好每条记录的各种字段。

MongoDB还支持灵活的水平扩展和自动数据分片技术，使得其特别适合于处理海量数据和高并发请求。

以下是MongoDB的优点：

简单易学，相比而言，MongoDB的学习曲线要比传统关系型数据库低得多。
适用于海量的非结构化和半结构化数据存储，配合分布式文件系统（如HDFS）使用时十分方便。
方便进行水平扩展，适应大规模的数据存储和高并发的请求。
提供复杂查询、嵌套文档以及键值对等多种数据结构支持，能够满足不同领域和业务需求的数据存储。
支持多种语言开发，并有完善的社区支持和文档资料。

MongoDB已经成为企业级产品的首选，同时作为互联网飞速发展的背景下，在移动互联网和物联网等领域也获得了广泛应用。在具体使用MongoDB时，一些需要注意的问题包括：合理利用索引提高查询效率、注意数据的备份和恢复等等。

综上，作为非关系型数据库中的一种，MongoDB在性能、灵活性等方面都表现出色，为海量数据的存储和处理提供了更好的选择。因此，在大数据存储及管理的过程中，MongoDB逐渐走进人们的视野并越来越被重视。

在使用 MongoDB 进行数据存储和管理之前，需要先熟悉基本的语法规则。下面介绍 MongoDB 常用的操作和语法：

数据库操作

创建数据库：

db = client.test_database # 获取数据库对象

删除数据库：

client.drop_database('test_database') # 删除指定名称的数据库

查看当前数据库：

db = client.get_database('test_database') # 获取指定名称的数据库
print(client.list_database_names()) # 列出当前所有数据库名称

集合操作

创建集合：

collection = db.my_collection # 获取集合对象

删除集合：

db.my_collection.delete_one({'name': 'John'}) # 删除集合中符合条件的文档

插入文档：

data = {'name': 'John', 'age': 18, 'gender': 'male'}
collection.insert_one(data) # 插入单条文档

查询文档：

result = collection.find_one({'name': 'John'}) # 查询符合条件的第一个文档
for item in collection.find({'age': 18}): # 查询所有符合条件的文档
    print(item)

更新文档：

collection.update_one({'name': 'John'}, {'$set': {'age': 20}}) # 更新符合条件的第一条文档的特定字段

删除文档：

索引操作

创建索引：

collection.create_index([('name', pymongo.ASCENDING)], unique=True) # 创建单字段唯一索引

删除索引：

collection.drop_index([('name', pymongo.ASCENDING)]) # 删除单字段索引

查看所有索引：

print(collection.index_information())

聚合操作

按条件筛选并聚合：

数据备份和还原

备份数据库：

mongodump --host mongodb.example.com --port 27017 --username user --password pass --out /backup/mongodump-20210101

还原数据库：

mongorestore --host mongodb.example.com --port 27017 --username user --password pass /backup/mongodump-20210101

以上是 MongoDB 常用的语法操作，对于复杂的数据管理需求，MongoDB 还提供了更多丰富的功能和操作方式，在实践过程中应根据具体情况进行选择。

Pymongo 是 Python 操作 MongoDB 数据库的第三方库，使用 Pymongo 可以方便地连接、操作和管理 MongoDB 数据库。

下面介绍 pymongo 常用的操作：

连接 MongoDB 数据库

from pymongo import MongoClient

# 建立数据库连接
client = MongoClient('mongodb://localhost:27017/')

# 获取数据库对象
db = client.test_database

操作集合

# 获取集合对象
collection = db.my_collection

# 插入文档
data = {'name': 'John', 'age': 18, 'gender': 'male'}
collection.insert_one(data)

# 查询文档
result = collection.find_one({'name': 'John'})

# 更新文档
collection.update_one({'name': 'John'}, {'$set': {'age': 20}})

# 删除文档
collection.delete_one({'name': 'John'})

使用聚合操作

pipeline = [{'$match': {'age': {'$gte': 18}}}, {'$group': {'_id': '$gender', 'count': {'$sum': 1}}}]
result = collection.aggregate(pipeline)

设置和获取索引

# 创建索引
collection.create_index([('name', pymongo.ASCENDING)], unique=True)

# 删除索引
collection.drop_index([('name', pymongo.ASCENDING)])

# 获取所有索引
print(collection.index_information())

备份和恢复数据

# 备份数据
import subprocess
subprocess.call(["mongodump", "--host", "your_host", "--port", "your_port", "--username", "your_username", "--password", "your_password", "--out", "backup_folder"])

# 恢复数据
subprocess.call(["mongorestore", "--host", "your_host", "--port", "your_port", "--username", "your_username", "--password", "your_password", "folder_to_restore"])

以上是 pymongo 的常用操作，许多其他的操作和功能也可以通过使用 pymongo 实现。在使用 pymongo 进行数据库开发时，需要注意一些技术与操作细节，比如有效利用索引等来提升查询性能，合理设计数据模式和存储结构等等。