bufio
Go 语言在 io 操作中,还提供了一个 bufio 的包,使用这个包可以大幅提高文件读写的效率。
参考:https://www.cnblogs.com/ricklz/p/13188188.html
原理
bufio 是通过缓冲来提高效率。
io 操作本身的效率并不低,低的是频繁的访问本地磁盘的文件。所以 bufio 就提供了缓冲区(分配一块内存),读和写都先在缓冲区中,最后再读写文件,来降低访问本地磁盘的次数,从而提高效率。
bufio 封装了 io.Reader 或 io.Writer 接口对象,并创建另一个也实现了该接口的对象。
Reader
bufio.Reader
是 bufio 中对 io.Reader
的封装
1
2
3
4
5
6
7
8
9
| // Reader implements buffering for an io.Reader object.
type Reader struct {
buf []byte
rd io.Reader // reader provided by the client
r, w int // buf read and write positions
err error
lastByte int // last byte read for UnreadByte; -1 means invalid
lastRuneSize int // size of last rune read for UnreadRune; -1 means invalid
}
|
bufio.Read(p []byte)
相当于读取大小 len(p)
的内容,思路如下:
- 当缓存区有内容的时,将缓存区内容全部填入 p 并清空缓存区
- 当缓存区没有内容的时候且
len(p)>len(buf)
,即要读取的内容比缓存区还要大,直接去文件读取即可 - 当缓存区没有内容的时候且
len(p)<len(buf)
,即要读取的内容比缓存区小,缓存区从文件读取内容充满缓存区,并将 p 填满(此时缓存区有剩余内容) - 以后再次读取时缓存区有内容,将缓存区内容全部填入 p 并清空缓存区(此时和情况 1 一样)
实例化
bufio
包提供了两个实例化 bufio.Reader
对象的函数:NewReader
和 NewReaderSize
。其中,NewReader
函数是调用 NewReaderSize
函数实现的:
1
2
3
4
5
| // NewReader returns a new Reader whose buffer has the default size.
func NewReader(rd io.Reader) *Reader {
// defaultBufSize = 4096,默认的大小
return NewReaderSize(rd, defaultBufSize)
}
|
调用的 NewReaderSize
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
| // NewReaderSize returns a new Reader whose buffer has at least the specified
// size. If the argument io.Reader is already a Reader with large enough
// size, it returns the underlying Reader.
func NewReaderSize(rd io.Reader, size int) *Reader {
// Is it already a Reader?
b, ok := rd.(*Reader)
if ok && len(b.buf) >= size {
return b
}
if size < minReadBufferSize {
size = minReadBufferSize
}
r := new(Reader)
r.reset(make([]byte, size), rd)
return r
}
|
Writer
bufio.Writer
是 bufio 中对 io.Writer
的封装
1
2
3
4
5
6
7
8
9
10
11
12
| // Writer implements buffering for an io.Writer object.
// If an error occurs writing to a Writer, no more data will be
// accepted and all subsequent writes, and Flush, will return the error.
// After all data has been written, the client should call the
// Flush method to guarantee all data has been forwarded to
// the underlying io.Writer.
type Writer struct {
err error
buf []byte
n int
wr io.Writer
}
|
bufio.Write(p []byte)
的思路如下
- 判断 buf 中可用容量是否可以放下 p
- 如果能放下,直接把 p 拼接到 buf 后面,即把内容放到缓冲区
- 如果缓冲区的可用容量不足以放下,且此时缓冲区是空的,直接把 p 写入文件即可
- 如果缓冲区的可用容量不足以放下,且此时缓冲区有内容,则用 p 把缓冲区填满,把缓冲区所有内容写入文件,并清空缓冲区
- 判断 p 的剩余内容大小能否放到缓冲区,如果能放下(此时和步骤 1 情况一样)则把内容放到缓冲区
- 如果 p 的剩余内容依旧大于缓冲区,(注意此时缓冲区是空的,情况和步骤 3 一样)则把 p 的剩余内容直接写入文件
Scanner
bufio.Reader
结构体中所有读取数据的方法,都包含了 delim
分隔符,这个用起来很不方便,所以 Google
对此在 go1.1 版本中加入了 bufio.Scanner
结构体,用于读取数据。
1
2
3
| type Scanner struct {
// 内含隐藏或非导出字段
}
|
Scanner 类型提供了方便的读取数据的接口,如从换行符分隔的文本里读取每一行。
Scanner.Scan
方法默认是以换行符 \n
,作为分隔符。如果你想指定分隔符,Go
语言提供了四种方法:
ScanBytes
(返回单个字节作为一个 token
)ScanLines
(返回一行文本)ScanRunes
(返回单个 UTF-8
编码的 rune
作为一个 token
ScanWords
(返回通过“空格”分词的单词)。
除了这几个预定的,我们也可以自定义分割函数。
扫描会在抵达输入流结尾、遇到的第一个 I/O
错误、token
过大不能保存进缓冲时,不可恢复地停止。
当扫描停止后,当前读取位置可能会远在最后一个获得的 token
后面。需要更多对错误管理的控制或 token
很大,或必须从 reader
连续扫描的程序,应使用 bufio.Reader
代替。
1
2
3
4
5
6
7
8
9
| input := "hello world"
scanner := bufio.NewScanner(strings.NewReader(input))
scanner.Split(bufio.ScanWords)
for scanner.Scan() {
fmt.Println(scanner.Text())
}
if err := scanner.Err(); err != nil {
fmt.Fprintln(os.Stderr, "reading input:", err)
}
|