IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    流(stream)是怎么一回事

    米小安发表于 2015-12-05 23:01:57
    love 0

    —— 对这个问题的思考来源于前几天对 Java Socket 编程的尝试,TCP 协议要求建立一个 Socket 连接(注明的三次握手)之后才能进行通信,而连接双方进行数据的发送与接受,都是通过对输入输出流的机制来完成的。

    流的概念

    流作为概念应该是语言无关的。文件IO流,Unix系统标准输入输出流,标准错误流(stdin, stdout, stderr),还有一开始提到的 TCP 流,还有一些Web后台技术(如Nodejs)对HTTP请求/响应流的抽象,都可以见到流的概念。

    K&R 在 C Programming Language 书中提到流是这样定义的:

    流 (stream) 是与磁盘或其它外围设备关联的数据的源或目的地。

    可以把流理解成是对程序与外界交换数据的一种抽象,这里的外界限定是有必要的,通常不会把程序内部的数据流动抽象为流,毕竟在程序内部,数据流动是由函数调用、返回来完成的。而当我们使用三个标准IO流时,我们关心的是怎样通过它们与外界交互;当我们使用文件流时,我们关心的是将内存中的数据持久化到磁盘文件中(或从磁盘中读数据导内存)。

    于是数据从 A 处“流”向 B 处,可以类比像水流一样从高处流向低处。在水流动的过程中,作为最基本物理组成单位的水分子是不变的,相应的数据流也有它最小的组成单位。在不同的编程语言中,这个最小单位通常是字节流(二进制流)中的字节,或者字符流(文本流)中的字符。

    ——但不会是其他数据类型,就像我们从来没听说过数字流?,或者浮点数流,甚至数组流?

    因为字节是计算机保存数据的最终形式,而字符是其它数据结构序列化后的表现形式,也是人可以阅读的形式。与外接的交互需要这些通用的格式。不关心数据的内容,只需要完整地传输原始数据时,考虑字节流即可;关心传输字符和字符串时,就需要对字符流进行操作,stdio.h头文件里那一大坨输入输出函数就是干这个的。比如fgetc(FILE *stream)从文件流中读入一行

    另一方面,根据数据流动的方向,可以再抽象出输出流和输入流的概念。从程序内部到外部的流向是输出流,从程序外部到内部的流向是输入流。

    C 语言的stdio.h库中定义了打开文件流时必须指定的集中打开方式,"r"表示用于读取,"w"用于写入,"r+"用于读写。类似地,Java 语言的java.io中包含了InputStream, OutputStream 明确区分的输入流类和输出流类,并且二者都是抽象类,意味着必须根据需要使用它们各自的子类进行实例化。

    通过流操作实现(最)简单的文件拷贝

    根据实际的代码可以帮助理解stream,下面是一段用C语言标准库实现的最简单的文件拷贝功能。

    出于学习目的,这段代码偷懒没有任何容错功能,是典型的反面教材, 不过 whatever 了,不信你真拿去编译一下,是真的可以完整拷贝文件!除了不能拷贝目录,不能拷贝不存在的文件,不能拷贝文件权限,不能漏掉目的文件名或者路径,不能灵活处理文件软链接硬链接。等等等等blahblah(所以其实连看上去很简单的cp程序也是要有一大坨因素要考虑和支持的(啊跑题了

    // mini_cp.c
    #include <stdio.h>
    #define BUFFER_SIZE 512
    
    int main(int argc, char *argv[])
    { 
      // 从命令行参数中获得 SOURCE 和 DES 文件流
      FILE *src = fopen(argv[1], "rb");
      FILE *des = fopen(argv[2], "wb");
      
      long int num;
      
      // buffer 是读写的缓冲数组
      char buffer[BUFFER_SIZE];
    
      while(!feof(src)) {
        num = fread(buffer, sizeof(char), BUFFER_SIZE, src);
        fwrite(buffer, sizeof(char), num, des);
      }
    
      fclose(src);
      fclose(des);
    
      return 0;
    }

    这个自制的mini_cp程序不难理解,核心的逻辑可以分解为三个步骤:

    • 打开源文件流FILE *src和目的文件流FILE *des

    • 循环执行 { 每次从src流读取最多512字节的数据 => 并写入des流 } 直到源文件读取结束

    • 关闭文件流

    核心逻辑是非常清晰明了的,这样的逻辑也是流操作的普遍原理,尝试其他语言的实现,其实都已经大同小异,往往都少不了一个缓冲区的概念(或对象)。

    来看一下 Java 版本的同等实现:

    import java.io.File;
    import java.io.InputStream;
    import java.io.OutputStream;
    import java.io.FileInputStream;
    import java.io.FileOutputStream;
    import java.io.IOException;
    
    public class Copy {
        
        private static final int BUFFER_SIZE = 512;
    
        public static void main(String[] args) throws IOException {
            
            File srcFile = new File(args[0]);
            File desFile = new File(args[1]);
    
            int recvBytesSize;
            byte[] buffer = new byte[BUFFER_SIZE];
    
            FileInputStream in = new FileInputStream(srcFile);
            FileOutputStream out = new FileOutputStream(desFile);
    
            while((recvBytesSize = in.read(buffer)) != -1) {
                out.write(buffer, 0, recvBytesSize);
            }
    
            in.close();
            out.close();
    
        }
    }

    面向对象味更浓(代码更冗长)了有木有?但也正是因为面向对象,Java 把理论上的 stream 抽象为类,让我们直接获得类的实例(即对象),从而对对象进行操作。还是挺不赖的是吧,虽然代码更长了没错,但是更 OO 啊~

    写到这里已经能回答流基本是怎么一回事了,那么最后顺便再来放一段拷贝程序的ruby实现;

    require 'fileutils'
    FileUtils.cp('SOURCE.txt', 'DEST.txt')
    • 哈?

    • 嗯。

    ... That's why we love Ruby...(逃。。。



沪ICP备19023445号-2号
友情链接