raymond-byczko / php-codfish
Requires (Dev)
- phpunit/phpunit: ^8.2
This package is not auto-updated.
Last update: 2024-09-19 15:09:13 UTC
README
用途
此仓库支持处理大数据集的库。这是一个实验性库,仅探索处理此类问题的不同方法。
主要考虑的是以探索PHP引用的方式产生“链表”,这在C/C++中更为常见。
灵感来源
这个库的灵感来自于我面试时遇到的一个编程问题。它被称为“最长电影标题”问题。
在这个问题中,一个由1个或多个记录组成的文件,其中每个记录位于文件的一行上。每个记录对应一部电影。
每个记录中的一个或多个字段包含电影标题。问题是要生成一系列电影标题的最大拼接,以找到可以生成的最大的标题。在形成最长标题时,丢弃了琐碎的初始和结尾单词。
为什么是Codfish
我喜欢捕食并食用鳕鱼。在前几个世纪,北大西洋中鳕鱼的 sheer multitude,让我想起了大数据集。
方法
此库的方法是假设给定的数据集不足以“窄”以至于对开发有用。基本上,有人说,“使用这个测试数据”,或“使用这个作为你的数据”,但给出的是非常大的。此外,数据已给出,但预期的结果没有。
从开发角度来看,这并不好。拥有多个定义良好的数据集,以及它们在输入特定算法时的预期结果,是有用的。
如果想要正确处理非常大的数据集的输入/输出关系,那么对于较小的数据集来说,这一点很重要。
从小开始
我认为最好从小开始。比如说10条记录或20条。然而,超过这个范围,能够自动化生成这个测试数据是有用的。
自动化测试用例
php-codfish 试图从一开始就支持自动化测试数据,这些数据具有规定的属性,在应用于大数据集算法时易于使用。
状态
此代码处于草案格式,但进展顺利。在继续进行的过程中,我将尝试保持其更新,并尝试对其状态提出坦诚的意见。由于其代表在github和packagist上,所有人都欢迎查看!将添加一个文档文件夹,以便任何想要使用此库的人都可以获得良好的指导,而无需逆向工程。